Datenbasis

PoliGPT basiert auf den originalen Plenarprotokollen des deutschen Bundestages. Diese werden im so genannten Pre-Processing aufbereitet, um maschinell möglichst gut verarbeitbar zu sein. Dann werden die einzelnen Redeblöcke Sprechern, Pateien, Rollen usw. zugeordnet und in sinnhafte Abschnitte aufgeteilt.

Diese Textblöcke werden mit Hilfe einer KI (Large-Langage-Model) in eine Art "Bedeutungsraum" abstrahiert - man spricht hier von Embeddings -, die wiederum mit Metadaten versehen in einer Vektordatenbank abgelegt werden. Fragen, die an PoliGPT gestellt werden, werden ihrerseits in diesem Bedeutungsraum abstrahiert, so dass eine art Ähnlichkeitssuche in der Vektordatenbank durchgeführt werden kann. Das Ergebnis dieser Suche sind diejenigen Textabschnitte, die im Bedeutungsraum eine möglichst große Ähnlichkeit zur Frage aufweisen.

Auf diese Weise können sehr spezifische semantische Suchen duchgeführt werden, die über die sprachliche Bedeutung und nicht über den Wortlaut funktionieren. Die so aufgefundenen Suchergebnisse werden on der KI analysiert und als Antwort auf die Frage zusammengefasst.

Ein großer Vorteil dieser Vorgehensweise ist, dass Anworten von PoliGPT stets im gewünschten Kontext gegeben werden und Quellenangaben zu den Antworten angegeben werden können.

Plenarprotokolle

PDF oder XML-Dateien

Analyse

Vollständigkeit, Seitenbezüge, Übereinstimmung von Tagesordnung und Beiträgen

Bereinigung

Unsaubere Dokumentstruktur, fehlende Strukturbezüge, Extraktion von Kommentaren

Strukturierung

Redebeiträge, Tagesordnung, Zuordnung von Sprechern, Fraktionen, Rollen usw.

Vektordatenbank (Bedeutungsraum)

Jeder Textabschnitt wird durch einen vieldimentionalen Vektor aus rationalen Zahlenwerten repräsentiert