• Link zu Facebook
  • Link zu Instagram
  • Link zu Youtube
  • Sitemap
  • Downloadbereich
  • Blog
Verein für Computergenealogie e.V. (CompGen)
  • Anmeldung
  • Recherchieren
    • Datenbanken
    • GenWiki
    • Blog-Archiv
    • Namensverbreitungskarte
  • Kommunizieren
    • Veranstaltungen
    • Discourse
    • Mailinglisten
    • Forum
    • Social Media
  • Informieren
    • COMPUTERGENEALOGIE
    • FAMILIENFORSCHUNG
    • CompGen-Blog
    • DigiBib
  • Über uns
    • Ziele
    • Satzung
    • Kooperationen
    • Mitmachen
    • Mitgliedschaft
    • Spenden
    • Vorstand
    • Kontakt
    • IT-Ressort
  • Menü Menü
Kooperationspartner beim DES-Projekt Hochschulschriften: MPI für Innovation und Wettbewerb

DES-Projekt Hochschulschriften: XXX. Jahrgang in der Erfassung mit noch mehr KI-Unterstützung

20. Januar 2026/in Hochschulschriften, DES Datenerfassungssystem/von Michael Rose

Über das seit Dezember 2021 laufende DES-Projekt „Hochschulschriften“ des Vereins für Computergenealogie in Zusammenarbeit mit dem Max-Planck-Institut für Innovation und Wettbewerb in München berichtet der CompGen-Blog regelmäßig. Mit dem neuen Jahrgang für 1914 wurde die Vorbereitung der Einträge mit Hilfe von Großen Sprachmodellen weiter verbessert.

Seit der letzten Meldung wurden die Jahrgänge 1912 und 1913 abgeschlossen. Die Datenbank umfasst nun knapp 84.000 vollständig korrigierte Einträge. Jüngst wurde der XXX. Jahrgang für das Jahr 1914 zur Korrektur in die Datenbank eingespeist. Er ist mit 4.833 Einträgen minimal größer als der vorherige Jahrgang.

Ausschnitt aus dem Jahresverzeichnis der Deutschen Hochschulschriften, XXX. Band
Seite 502 des aktuellen XXX. Jahrgangs mit dem Eintrag von Walther Bothe, Physik-Nobelpreisträger von 1954.

Der neue Jahrgang ist schon deshalb besonders, weil er die erste Generation von Doktoranden umfasst, die während des Ersten Weltkriegs promoviert wurden; seine Bearbeitung ist aber auch deshalb bemerkenswert, weil bei der Vorbereitung in noch stärkerem Maße als bisher auf Künstliche Intelligenz (KI) gesetzt wird.

Die KI unterstützt noch mehr

Bisher sah die Vorbereitung der Einträge so aus: Nach dem Scannen übernimmt Transkribus die Aufgabe, mit seinem KI-Modell die Texte automatisch zu erkennen. Die resultierenden Textblöcke werden anschließend von einem eigens entwickelten Computer-Programm in einzelne Felder zerlegt: Wo endet der Name, wo beginnt der Titel, was gehört zum biographischen Block? Das geschieht mit einfachen Regeln, beispielsweise basierend auf Satzzeichen. Diese Regeln sind einfach und helfen im Großen und Ganzen, aber bei Spezialfällen versagen sie. Zudem waren sie wartungsintensiv, da Änderungen im Format fortlaufend Anpassungen notwendig machten. Ein weiterer Nachteil: Wenn Transkribus ein Zeichen nicht erkannt hatte, konnte unser Programm diesen Fehler nicht ausbügeln.

Genau diesen zweiten Verarbeitungsschritt übernimmt nun eine KI. Zum Einsatz kommt das offene Große Sprachmodell („Large Language Model”, LLM) GPT OSS120B. Wie GPT-4, welches z.B. in ChatGPT verwendet wird, gehört es zur US-amerikanischen Softwareschmiede OpenAI. Auch andere Modelle wurden getestet. Die besten Ergebnisse lieferte jedoch GPT OSS 120B.

Die Anweisungen für das Modell (der sogenannte „Prompt”) umfassen über 1.500 Wörter. Nach allgemeiner Aufgabenstellung folgt dann für jedes der 28 Felder eine detaillierte Erklärung, was hier zu erwarten ist. Anschließend folgt eine Liste der Dinge, die das Modell machen darf. Ziel ist immer noch, sehr konservativ zu arbeiten und nicht zu halluzinieren.

Weniger Arbeit und mehr Zufriedenheit

Die Unterstützung durch das Große Sprachmodell wird gut angenommen. Zwar mussten die Ergebnisse kurz nachjustiert werden, was mithilfe der Online-Schnittstelle von DES schnell gelang. Doch die freiwilligen Erfasser sind zufrieden. Einer von ihnen schrieb „… die Korrektur [geht] mindestens doppelt so schnell wie vorher.”

Wer auch bei diesem innovativen Projekt mitmachen möchte, kann sich hier im GenWiki informieren.

Verein für Computergenealogie e.V. (CompGen)
Verein für Computergenealogie e.V. (CompGen)
@blog
Folgen

CompGen – offen, vernetzt, geschichtsbegeistert!
WordPress im Fediverse – Bloggen ohne Grenzen – Reichweite ohne Ende!

2.318 Beiträge
269 Folgende

Folge Verein für Computergenealogie e.V. (CompGen)

Mein Profil

Kopiere mein Profil und füge es im Suchfeld deiner bevorzugten Fediverse-App oder deines bevorzugten Fediverse-Servers ein.

Dein Profil

Oder wenn du dein eigenes Profil kennst, können wir damit loslegen!
Fediverse-Reaktionen
  • Bernhard Mosolf
  • Mastodontepistula vermiformis
  • Mo
  • Bernhard Mosolf
  • Mastodontepistula vermiformis
Schlagworte: Transkribus, Jahresverzeichnisse, Künstliche Intelligenz, MPI für Innovation und Wettbewerb, Mitwirkende, GPT OSS, Sprachmodell, LLM, Prompt, CompGen
Eintrag teilen
  • Teilen auf Facebook
  • Teilen auf WhatsApp
  • Teilen auf Pinterest
  • Teilen auf LinkedIn
  • Teilen auf Tumblr
  • Teilen auf Reddit
  • Per E-Mail teilen
https://www.compgen.de/wp-content/uploads/2021/12/MPI-Innovation.jpg 435 1187 Michael Rose https://www.compgen.de/wp-content/uploads/2019/01/CG-Logo02-340_156px-200x92.png Michael Rose2026-01-20 12:30:002026-01-20 19:09:56DES-Projekt Hochschulschriften: XXX. Jahrgang in der Erfassung mit noch mehr KI-Unterstützung
Diskutiere diesen Beitrag in unserer Community

RSS Neu auf Discourse

  • Digital släktforskning - Tag der Genealogie 2026 21. Januar 2026
  • Obóz bei Płock - welches Kirchenbuch? 20. Januar 2026
  • Bitte um Lesehilfe - Taufe (Russisch) 20. Januar 2026
  • Heunisch-Pfarrer-Dynastie, Suche Georg Wilhelm Heunisch, geboren um 1611 20. Januar 2026
  • Georg Berg, Hüttisheim 20. Januar 2026

RSS Angesagte Themen

  • Zoom-Vortrag am dritten Donnerstag im März: "webtrees für Fortgeschrittene"
  • COMPUTERGENEALOGIE Heft 4/2025 mit Dienstleistungen und Hilfe
  • Tip 8 – Die große Auswanderung deiner Familie
  • Sehr merkwürdige Datenlage bei der 2. Ehefrau meines Ururgroßvaters - ERLEDIGT
  • Welche Benutzer erhalten weiter Zugriff?

Filter Blogbeiträge nach Thema

Wähle Beiträge aus Monat

Newsletter

Sie können sich einmal wöchentlich
den CompGen-Blog Newsletter
per E-Mail zuschicken lassen.
Newsletter abonnieren
Newsletter abbestellen?
Passwort vergessen?

News-Redaktion

Anregungen oder Rückmeldungen zu Website und Blog gerne an news@genealogy.net

Schlagwörter

Ahnenblatt Ahnenforschung Ancestry Archion Berlin Brandenburg Citizen Science CompGen DAGV DES Digitalisierung Discourse DNA DNA-Genealogie Familienforschung FamilySearch Frankreich GEDCOM Genealogentag Genealogie GenWiki Hessen Juden Kirchenbücher Köln Landesarchiv NRW Leipzig MyHeritage Niederlande Niedersachsen Ortsfamilienbuch Personenstandsregister Polen Rheinland-Pfalz RootsTech Sachsen Sachsen-Anhalt Schweden Transkribus Wochenvorschau YouTube Zoom-Meeting Zoom-Meetings Österreich Österreich-Ungarn

Du möchtest den Verein für Computergenealogie unterstützen? Das freut uns!

Mitmachen... Mitglied werden... Jetzt spenden...

© Copyright - Verein für Computergenealogie e.V. (CompGen) - powered by Enfold WordPress Theme
  • Impressum
  • Datenschutz
Link to: „Detmolder Kirchenbuchkartei“ des ehemaligen Fürstentum Lippe ist online Link to: „Detmolder Kirchenbuchkartei“ des ehemaligen Fürstentum Lippe ist online „Detmolder Kirchenbuchkartei“ des ehemaligen Fürstentum Lippe ist onli...NRW-Landesarchivgemeinfrei
Nach oben scrollen Nach oben scrollen Nach oben scrollen