Use Case EGI#3: Extraktion von Daten aus PDF/Bildern
Was steckt hinter einer hochgeladenen Datei – ein Prüfbericht, eine Analyse oder nur ein Foto? Unser Proof of Concept zeigt, wie sich mit LLMs und passenden Tools automatisch Informationen wie Erstellungsdatum oder Dokumenttyp aus PDFs und Bildern extrahieren lassen. Das spart Zeit und ermöglicht z. B. die automatische Ablehnung unvollständiger Anträge. Die weiteren Use Cases rund um den EGI-PoC stellen wir in dieser Blogserie vor.
In einer Applikation, in welcher Benutzer:innen PDF- und/oder Bilddateien hochladen, besteht oft das Problem, dass aufgrund des Dateinamens nicht klar ist, was sich überhaupt hinter der Datei verbirgt. Ist es eine Analyse, ein Prüfbericht oder ein Dokument? Oder wurde ein Analysebericht abfotografiert und als Bild hochgeladen?
Ein weiterer Anwendungsfall wäre z.B. die automatische Extraktion bestimmter Informationen aus dem Dokument. Diese Informationen lassen sich anschliessend strukturiert zur Verfügung stellen. Dies würde den Aufwand ersparen, jedes Dokument einzeln zu öffnen und die Informationen selber zu suchen. Fachliche Regeln lassen sich direkt anwenden: Fehlen Informationen, lehnt das System ein Gesuch automatisch ab. Wir durften einen PoC umsetzen, in welchem wir zeigten, dass Daten mit den heutigen Tools und einem LLM sehr einfach extrahiert werden können.
Dabei funktioniert das System nach folgendem Prozess:
- Konvertierung des PDFs zu Markdown mit Docling
- Aufbereitung des Prompt Templates
- Senden des Prompts an das LLM (Microsoft phi4)
- Interpretation der strukturierten Antwort
Mit diesem relativ einfachen Prozess konnten wir im PoC einfache Informationen wie z.B. die folgenden extrahieren:
- Erstellungsdatum des Dokuments
- Hier ist nicht das Erstellungsdatum der Datei gemeint, sondern eine Angabe im Dokument!
- Typ des Dokuments (Analyse, Prüfbericht, sonstiges)
- Metadatengenerierung zu Bildern (Ist es ein Foto oder ein Bericht, etc.)
Erfahrungen
- Die Extraktion von Daten lässt sich relativ einfach bewerkstelligen
- Die Tools sind heute sehr weit, damit auch PDFs, welche nicht einfach strukturiert sind (z.B. Tabellen, zweispaltiges Layout, etc.), sehr gut in für LLM verständlichen Text umgewandelt werden können, ohne dabei den Kontext zu verlieren
- Je nach Grösse des Dokuments muss auch ein LLM mit einem entsprechenden Kontextwindow verwendet werden. Hat man grössere Dokumente, welche nicht mehr ins Kontextwindow passen, müssten weitere Mechanismen, die sich z.B. in einem RAG bewährt haben, anwenden, um gute Resultate zu erhalten.
Fazit
Mit den richtigen Tools und optimierten Prompts lässt sich schnell ein System zur Datenextraktion entwickeln. Dieses System unterstützt Anwender und spart Zeit.