Verarbeitung von Sterbebildern mit KI beim BLF

Schon im vergangenen Jahr war im Blog des Bayerischen Landesvereins für Familienkunde e.V. (BLF) ein Bericht über die automatisierte Verarbeitung von Sterbebildern mit KI zu lesen. Die BLF-Sterbebilder-Datenbank ist mit über 1,2 Millionen eingescannten Sterbebildern, wie man in Bayern die anderswo auch Toten- oder Partezettel genannten Trauerbildchen bezeichnet, eine der größten Sammlungen. Die Schwerpunkte liegen in Bayern und den Grenzregionen zu Österreich. Eine Suche in der Datenbank ist über einen Gasteingang kostenlos; sie ist auch in der Metasuche in den CompGen-Datenbanken eingebunden. Scans der Sterbebilder werden aber nur den Mitglieder des BLF und befreundeten Vereinen nach Registrierung angezeigt, allerdings nur dann, wenn es kein Urheberrecht an Bildern auf den Totenzetteln gibt.

Dubletten durch Texterkennung identifizieren

Eins der Probleme bei der immer noch manuellen Erfassung der Namen, Daten und Orte war die immer größer werdende Anzahl der Dubletten, die nicht zum zweiten oder dritten Mal neu eingegeben werden sollten. Um dies zu vermeiden, hatte der Informatiker Josef Probst die Idee, den Text aus dem eingescannten Sterbebild mit einer Texterkennungssoftware zu lesen, so die abgedruckten Namen und Daten der verstorbenen Personen zu entziffern und sie dann mit den Daten in der Datenbank zu vergleichen. Stimmten Namen, Geburts- und Sterbedaten überein, konnte das Sterbebild von der weiteren Erfassung ausgeschlossen werden.

Josef Probst hat ein Python-Programm geschrieben, das die eingescannten Sterbebilder mit Hilfe der kostenlos verwendbaren Texterkennungssoftware Tesseract „liest“. Diese schon vor mehr als 30 Jahre entwickelte Software erkennt Textzeichen in verschiedenen Schrifttypen (z.B. Frakturschrift) und Sprachen. Archive und Bibliotheken benutzen die weiterentwickelte Software auf Basis von Tesseract zum Lesbar-Machen gedruckter Texte. Genau für diese Aufgabe wird Künstliche Intelligenz (KI) eingesetzt.

Hohe Trefferquote von Dubletten erreicht

Bei den Sterbebildern war das Problem zu bewältigen, dass nicht nur unterschiedliche Schriftarten das automatische Entziffern erschwerten. Es sollten auch Vorname, Familienname, Geburts- und Sterbedatum gelesen und identifiziert werden, um Duplikate auszuscheiden. Die weiteren Textzeilen sollten ignoriert werden. Das Programm von Josef Probst löst diese Aufgabe, indem die Geburts- und Sterbedaten mit einer hohen Trefferquote ausgelesen und mit den Inhalten in der Datenbank verglichen werden. Nur wenn ein Geburtsdatum fehlte, wurden Vor- und Nachname zusammen mit dem Sterbedatum zum Abgleich herangezogen.

Die Programmentwicklung wird sicher weitergehen, um auch die Erfassung von neuen Sterbebildern zu automatisieren, so dass nur noch eine Kontrolle der erfassten Daten nötig ist.

Eigene Versuche mit Tesseract und ChatPDF

Wer das kostenlose Texterkennungsprogramm Tesseract selbst installieren möchte, sei auf die Anleitung des Landschaftsverbandes Westfalen-Lippe verwiesen. Es gibt sicher weitere Wege, um das Programm für seine Zwecke einzusetzen. Wer das Programmpaket von PDF24 kennt oder installiert hat, weiß, dass darin auch die Texterkennung (OCR) von PDF-Dateien enthalten ist. Diese funktioniert übrigens auch mit Tesseract. Die Texterkennung wurde auch erfolgreich bei Grabsteinen von Billion Graves eingesetzt, wie wir hier im Blog des Vereins für Computergenealogie (CompGen) berichtet haben.

Ich habe den hier im Blog abgebildeten Totenzettel als PDF-Datei mit PDF24 per Texterkennung (OCR) lesen lassen und dann mit ChatPDF probiert, die Namen und Daten zu extrahieren. Diese KI-Software erlaubt es, zum Inhalt einer zuvor hochgeladenen PDF Fragen zu stellen. Der Chatbot hat den Text des Totenzettels gelesen und mir die folgende Frage beantwortet:

„Kann ich alle Informationen zur verstorbenen Person in einer detaillierten Tabelle erhalten, einschließlich des Geschlechts?“

Die geforderte Tabelle wurde vollständig und bis auf den durch die OCR falsch gelesenen Sterbeort richtig erstellt:

Die Blogredaktion ist an Euren Erfahrungen bei der Texterkennung und Weiterverarbeitung der erkannten Daten interessiert.
Beschreibt uns Eure Versuche!

Verein für Computergenealogie e.V. (CompGen)

@blog

CompGen – offen, vernetzt, geschichtsbegeistert!
WordPress im Fediverse – Bloggen ohne Grenzen – Reichweite ohne Ende!

2.320 Beiträge

271 Folgende

Dubletten durch Texterkennung identifizieren

Hohe Trefferquote von Dubletten erreicht

Eigene Versuche mit Tesseract und ChatPDF

Mein Profil

Dein Profil

Fediverse-Reaktionen