• Facebook
  • Twitter
  • Instagram
  • Youtube
  • Sitemap
  • Downloadbereich
  • Blog
Verein für Computergenealogie e.V. (CompGen)
  • Recherchieren
    • Datenbanken
    • GenWiki
    • Blog-Archiv
    • Namensverbreitungskarte
  • Kommunizieren
    • Online Sprechstunde
    • Mailinglisten
    • Forum
    • Discourse
    • Veranstaltungen
    • Social Media
  • Informieren
    • COMPUTERGENEALOGIE
    • FAMILIENFORSCHUNG
    • CompGen-Blog
    • DigiBib
  • Über uns
    • Ziele
    • Satzung
    • Kooperationen
    • Mitmachen
    • Mitgliedschaft
    • Spenden
    • Vorstand
  • Kontakt
  • Menü Menü
Ausschnitt aus einer gedruckten Quelle, bei dem die zweite und dritte Zeile eines Eintrags jeweils eingerückt ist

Neue Wege, gedruckte serielle Quellen zu erschließen

28. Juli 2022/in Verlustlisten, Wissen/von Jesper Zedlitz

Schon mit den Verlustlisten Österreich-Ungarns haben wir eine neue Herangehensweise gewählt, um umfangreiche, gedruckte, serielle Quellen für die Familien- und Ahnenforschung zu erschließen. Anders als bei den deutschen Verlustlisten des Ersten Weltkriegs haben wir dabei nicht nur auf menschliche Arbeit gesetzt. Viele Schritte kann ein Computerprogramm gut und viel schneller erledigen. In diesem englischen Artikel habe ich vor einiger Zeit das Vorgehen bei den Verlustlisten Österreich-Ungarn bereits beschrieben.

Inhaltsverzeichnis

  • Grundlegender Ablauf
    • Aufbereiten der OCR-Texte
    • Defragmentieren
    • Erkennen der Struktur
  • Manuelle Nacharbeit

Grundlegender Ablauf

Grundlegender Ablauf der Verarbeitung

Ganz grundlegend teilt sich das Vorgehen von der gescannten Quelle bis hin zu den fertigen, strukturierten Daten in folgende Schritte auf:

  1. maschinelle Texterkennung (OCR)
  2. Aufbereiten der OCR-Texte
  3. manuelle Nacharbeit

Bei den Verlustlisten Österreich-Ungarns haben wir die maschinelle Texterkennung mit Hilfe von ABBYY FineReader XIX durchgeführt. Die Qualität war schon in Ordnung; mittlerweile hat sich in dem Bereich aber noch einiges getan, so dass die Erkennungsrate der Wörter nahe an 100 % ist. Die Aufbereitung der Texte erfolgte mit einem eigens entwickelten Programm, das spezielle Regel für die Struktur der österreich-ungarischen Verlustlisten einprogrammiert hat. Die manuelle Nacharbeit erfolgte schließlich im Dateneingabesystem (DES), wo fehlende Teile eines Eintrags ergänzt und falsch erkannte Wörter korrigiert wurden.

Aufbereiten der OCR-Texte

Auf das Aufbereiten der OCR-Texte möchte ich im Folgenden genauer eingehen. Dort habe ich nämlich mit Hilfe von maschinellem Lernen (machine learning) gute Fortschritte erzielt. Die Ergebnisse sind so gut, dass man auch über neue Wege der manuellen Nacharbeit nachdenken sollte.

Zwei Arbeitsschritte sind zu erledigen:

  1. Defragmentieren der Einträge
  2. Erkennung der Struktur eines Eintrags
Defragmentieren

Würde in der Quelle eine Zeile genau einem Eintrag entsprechen, so könnte der Arbeitsschritt Defragmentieren entfallen. Meist gehören jedoch mehrere Zeilen zu einem Eintrag. Noch komplizierter ist es, wenn innerhalb einer Zeile mehrere Einträge enthalten sind, die sich darüber hinaus auch noch über mehrere Zeilen erstrecken können. Mit diesem Problem habe ich mich aber noch nicht beschäftigt. Ziel des Arbeitsschrittes Defragmentieren ist es also, den Text eines Eintrags in eine Zeile zu bekommen. Bei den bisher bearbeiteten Quellen konnte man Einträge gut über die Einrückung erkennen.

Ausschnitt aus einer gedruckten Quelle, bei dem die zweite und dritte Zeile eines Eintrags jeweils eingerückt ist
Ausschnitt aus einer gedruckten Quelle, bei dem die zweite und dritte Zeile eines Eintrags jeweils eingerückt ist
Erkennen der Struktur
Erstellen des machine learning Modells

Als nächstes muss der Text eines Eintrags in seine Bestandteile zerlegt werden. Leider kann man nicht einfach Komma oder ähnliches als Trennzeichen verwenden – nicht alle Bestandteile sind durch Komma getrennt und manchmal macht die OCR einen Punkt daraus. Außerdem sind nicht immer alle Bestandteile für einen Eintrag enthalten und gelegentlich weicht auch die Reihenfolge der Bestandteile ab. Daher kommt an dieser Stelle maschinelles Lernen (chunking) zum Einsatz. Aus der gesamten Menge der Zeilen wird ein Teil (z.B. 100 Zeilen) genommen und von Hand markiert.

Beispiel für von Hand markierten (getaggten) Text

Praktisch kann man sogar mit weniger Zeilen starten, dann die Erkennung laufen lassen und das (zunächst schlechte) Ergebnis weiter verbessern. Die 100 Zeilen teilt man in Trainingsdaten und Testdaten auf; als praktikabel hat sich ein Verhältnis von 80:20 bis 90:10 erwiesen.

Mit den Trainingsdaten trainiert man ein Modell. Die Testdaten verwendet man, um zu überprüfen, wie gut die Erkennung mit dem trainierten Modell funktioniert. Ist man mit den Ergebnissen des Trainings zufrieden, kann man die gesamte Menge der Zeilen zerlegen. Natürlich kann man immer noch später weitere richtige bzw. korrigierte Einträge den Trainings- und Testdaten hinzufügen.

Konkret habe ich ein conditional random field für das chunking verwendet. Bei der Erkennung von features habe ich mich auf rudimentäre Informationen beschränkt. Da steckt bestimmt noch viel Potential drin. Dem Modell fehlt außerdem noch das “Wissen” über die innere Struktur eines Eintrags. Wenn z.B. der Dienstrang genannt wurde, dann kann ein späteres Wort nicht nochmal der Dienstrang sein.

Den Java-Code für die gesamte Aufbereitung kann man sich hier ansehen: https://gitlab.genealogy.net/jzedlitz/ocr4des Da die einzelnen Zwischenergebnisse immer wieder als Textdateien gespeichert werden, könnte man auch gut unterschiedliche Programmiersprachen für die einzelnen Schritte verwenden.

Das Vorbereiten der Trainingsdaten erfolgt bisher ganz simpel in Textdateien. Sinnvoll wäre es, die Arbeit auf mehrere Personen aufzuteilen. Fehler beim Markieren lassen sie nie ganz vermeiden. Falsche Markierungen haben aber negativen Einfluss auf das Training des Modells. Daher ist ein Abgleich mit mindestens zwei Eingaben unterschiedlicher Personen sinnvoll. Vielleicht hat jemand eine Idee, wie man das Markieren (auch Annotieren oder Taggen genannt) besser gestalten kann.

Manuelle Nacharbeit

Was macht man nun mit den automatisch strukturierten Einträgen? Ganz perfekt ist die Zerlegung nicht, bisherige Tests sind aber sehr gut. Man könnte die Daten in einer Tabelle nachbearbeiten. Durch geschicktes Sortieren und Suchen kann man bestimmt die problematischen Einträge schnell finden.

Bei den Verlustlisten Österreich-Ungarn haben wir die erkannten Einträge ins DES importiert und dort korrekturlesen bzw. ergänzen lassen. Das DES scheint mir bei der sehr guten Datenqualität nicht gut geeignet zu sein. Es ist nämlich sehr ermüdend, wenn man über 90 % der Einträge einfach nur noch “abnicken” muss, da die maschinelle Erkennung schon so gut war. Denkbar wäre eine neue Webanwendung, die einem unklare Einträge anzeigt und fragt, ob daran eine Korrektur notwendig ist. Das könnte man dann auch bequem auf einem Smartphone oder Tablet machen.

Eine andere Möglichkeit könnte es sein, das DES um einen neuen Modus zu erweitern, bei dem man gezielt zu Seiten mit unklaren Einträgen springen kann, am besten direkt zum Eintrag. Dort könnte man die Korrektur und auch gleich die Verbesserung vornehmen.

Auch hier würde ich mich über Idee freuen, wie wir die maschinell strukturierten Daten am besten nachbearbeiten können.

Schlagworte: Österreich-Ungarn, machine learning, DES, OCR, Familien-/Ahnenforschung, Erster Weltkrieg, Texterkennung, Java, chunking, tagging
Eintrag teilen
  • Teilen auf Facebook
  • Teilen auf Twitter
  • Teilen auf WhatsApp
  • Teilen auf Pinterest
  • Teilen auf LinkedIn
  • Teilen auf Reddit
  • Per E-Mail teilen
https://www.compgen.de/wp-content/uploads/2022/07/Datenaufbereitung-Quelle-1.jpg 263 1019 Jesper Zedlitz https://www.compgen.de/wp-content/uploads/2019/01/CG-Logo02-340_156px-200x92.png Jesper Zedlitz2022-07-28 10:19:002022-07-28 10:35:05Neue Wege, gedruckte serielle Quellen zu erschließen
Das könnte Dich auch interessieren
Digitaltag 2022Digitaltag Deutschland, Famillement Amsterdam und mehr
Internationales Donaufest Ulm 2022Zehn Tage internationales Donaufest in Ulm
Genealogien JGLR 18/2021„Genealogien. Zwischen populären Praktiken und akademischer Forschung“
Erfassung im Portal AdressbücherDrei neue Adressbücher zur Erfassung bereit, Dank für vier neu bearbeitete Bücher
Erfassung im Portal AdressbücherHistorische Zeitungen werden mit Transkribus lesbar gemacht
Erfassung im Portal AdressbücherAustria-Hungary casualty lists – 1917 is complete
Beteilige Dich an der Diskussion

VERANSTALTUNGSKALENDER

Neue Themen auf Discourse

  • Discourse
    27. März 2023
  • Adressbuch Bad Ems 1896 - Erfassung im DES abgeschlossen
    27. März 2023
  • Adressbuch Bad Ems 1896 - Erfassung im DES abgeschlossen
    27. März 2023
  • Suche nach Pfarrer Melchior Königsdorfer vor 1606
    27. März 2023
  • Auswanderungen aus Höfles, Franken
    27. März 2023

Filter Blogbeiträge nach Thema

Wähle Beiträge aus Monat

Newsletter

Sie können sich einmal wöchentlich
den CompGen-Blog Newsletter
per E-Mail zuschicken lassen.
Newsletter abonnieren
Newsletter abbestellen?
Passwort vergessen?

News-Redaktion

Anregungen oder Rückmeldungen zu Website und Blog gerne an news@genealogy.net

Schlagwörter

AGoFF Archion BLF Cardamina CIGH DAGV Digitalisierung Dissidentenregister DNA-Genealogie Dänemark FamilySearch GEDCOM Genealogentag Germanic Genealogy Society Großeltern Grundverordnung Hamburg Internetsicherheit Juden JuWeL Kinder Kriegsgräberlisten Landesarchiv NRW Mailinglisten Matricula Mikrofilm Mitarbeit Moldau Namensverbreitung Neusatz Niederlande OFB Samenspenderkinder Schwaben Schweden Serbien Standesamtsunterlagen Totenzettel Ulm Ursula Ernestus USA Web 2.0 Westfalen Westpreußen Österreich-Ungarn

Du möchtest den Verein für Computergenealogie unterstützen? Das freut uns!

Mitmachen... Mitglied werden... Jetzt spenden...
© Copyright - Verein für Computergenealogie e.V. (CompGen) - powered by Enfold WordPress Theme
  • Impressum
  • Datenschutz
  • Impressum – Bildnachweis
Geschichte(n) der kleinen LeuteTitelseite des Pfarrerbuch der Kirchenprovinz SachsenPfarrerbuch der Kirchenprovinz Sachsen jetzt mit Personen- und Ortsregister
Nach oben scrollen