• Link zu Facebook
  • Link zu Instagram
  • Link zu Youtube
  • Sitemap
  • Downloadbereich
  • Blog
Verein für Computergenealogie e.V. (CompGen)
  • Anmeldung
  • Recherchieren
    • Datenbanken
    • GenWiki
    • Blog-Archiv
    • Namensverbreitungskarte
  • Kommunizieren
    • Veranstaltungen
    • Discourse
    • Mailinglisten
    • Forum
    • Social Media
  • Informieren
    • COMPUTERGENEALOGIE
    • FAMILIENFORSCHUNG
    • CompGen-Blog
    • DigiBib
  • Über uns
    • Ziele
    • Satzung
    • Kooperationen
    • Mitmachen
    • Mitgliedschaft
    • Spenden
    • Vorstand
    • Kontakt
    • IT-Ressort
  • Menü Menü
Kooperationspartner beim DES-Projekt Hochschulschriften: MPI für Innovation und Wettbewerb

DES-Projekt Hochschulschriften: XXX. Jahrgang in der Erfassung mit noch mehr KI-Unterstützung

20. Januar 2026/in Hochschulschriften, DES Datenerfassungssystem/von Michael Rose

Über das seit Dezember 2021 laufende DES-Projekt „Hochschulschriften“ des Vereins für Computergenealogie in Zusammenarbeit mit dem Max-Planck-Institut für Innovation und Wettbewerb in München berichtet der CompGen-Blog regelmäßig. Mit dem neuen Jahrgang für 1914 wurde die Vorbereitung der Einträge mit Hilfe von Großen Sprachmodellen weiter verbessert.

Seit der letzten Meldung wurden die Jahrgänge 1912 und 1913 abgeschlossen. Die Datenbank umfasst nun knapp 84.000 vollständig korrigierte Einträge. Jüngst wurde der XXX. Jahrgang für das Jahr 1914 zur Korrektur in die Datenbank eingespeist. Er ist mit 4.833 Einträgen minimal größer als der vorherige Jahrgang.

Ausschnitt aus dem Jahresverzeichnis der Deutschen Hochschulschriften, XXX. Band
Seite 502 des aktuellen XXX. Jahrgangs mit dem Eintrag von Walther Bothe, Physik-Nobelpreisträger von 1954.

Der neue Jahrgang ist schon deshalb besonders, weil er die erste Generation von Doktoranden umfasst, die während des Ersten Weltkriegs promoviert wurden; seine Bearbeitung ist aber auch deshalb bemerkenswert, weil bei der Vorbereitung in noch stärkerem Maße als bisher auf Künstliche Intelligenz (KI) gesetzt wird.

Die KI unterstützt noch mehr

Bisher sah die Vorbereitung der Einträge so aus: Nach dem Scannen übernimmt Transkribus die Aufgabe, mit seinem KI-Modell die Texte automatisch zu erkennen. Die resultierenden Textblöcke werden anschließend von einem eigens entwickelten Computer-Programm in einzelne Felder zerlegt: Wo endet der Name, wo beginnt der Titel, was gehört zum biographischen Block? Das geschieht mit einfachen Regeln, beispielsweise basierend auf Satzzeichen. Diese Regeln sind einfach und helfen im Großen und Ganzen, aber bei Spezialfällen versagen sie. Zudem waren sie wartungsintensiv, da Änderungen im Format fortlaufend Anpassungen notwendig machten. Ein weiterer Nachteil: Wenn Transkribus ein Zeichen nicht erkannt hatte, konnte unser Programm diesen Fehler nicht ausbügeln.

Genau diesen zweiten Verarbeitungsschritt übernimmt nun eine KI. Zum Einsatz kommt das offene Große Sprachmodell („Large Language Model”, LLM) GPT OSS120B. Wie GPT-4, welches z.B. in ChatGPT verwendet wird, gehört es zur US-amerikanischen Softwareschmiede OpenAI. Auch andere Modelle wurden getestet. Die besten Ergebnisse lieferte jedoch GPT OSS 120B.

Die Anweisungen für das Modell (der sogenannte „Prompt”) umfassen über 1.500 Wörter. Nach allgemeiner Aufgabenstellung folgt dann für jedes der 28 Felder eine detaillierte Erklärung, was hier zu erwarten ist. Anschließend folgt eine Liste der Dinge, die das Modell machen darf. Ziel ist immer noch, sehr konservativ zu arbeiten und nicht zu halluzinieren.

Weniger Arbeit und mehr Zufriedenheit

Die Unterstützung durch das Große Sprachmodell wird gut angenommen. Zwar mussten die Ergebnisse kurz nachjustiert werden, was mithilfe der Online-Schnittstelle von DES schnell gelang. Doch die freiwilligen Erfasser sind zufrieden. Einer von ihnen schrieb „… die Korrektur [geht] mindestens doppelt so schnell wie vorher.”

Wer auch bei diesem innovativen Projekt mitmachen möchte, kann sich hier im GenWiki informieren.

Verein für Computergenealogie e.V. (CompGen)
Verein für Computergenealogie e.V. (CompGen)
@blog
Folgen

CompGen – offen, vernetzt, geschichtsbegeistert!
WordPress im Fediverse – Bloggen ohne Grenzen – Reichweite ohne Ende!

2.340 Beiträge
298 Folgende

Folge Verein für Computergenealogie e.V. (CompGen)

Mein Profil

Gib mein Profil in das Suchfeld deiner bevorzugten Open-Social-App oder -Plattform ein.

Dein Profil

Oder wenn du dein eigenes Profil kennst, können wir damit loslegen!
Warum muss ich mein Profil eingeben?

Diese Website ist Teil des ⁂ Open Social Web, einem Netzwerk miteinander verbundener sozialer Plattformen (wie beispielsweise Mastodon, Pixelfed, Friendica und andere). Im Gegensatz zu zentralisierten sozialen Medien befindet sich dein Profil auf einer Plattform deiner Wahl, und du kannst mit Menschen auf verschiedenen Plattformen interagieren.

Wenn du dein Profil eingibst, können wir an dein Profil senden, wo du diese Aktion abschließen kannst.

Fediverse-Reaktionen
  • Bernhard Mosolf
  • Mastodontepistula vermiformis
  • Mo
  • Bernhard Mosolf
  • Mastodontepistula vermiformis
Schlagworte: Jahresverzeichnisse, Künstliche Intelligenz, MPI für Innovation und Wettbewerb, Mitwirkende, GPT OSS, Sprachmodell, LLM, Prompt, CompGen, Transkribus
Eintrag teilen
  • Teilen auf Facebook
  • Teilen auf WhatsApp
  • Teilen auf Pinterest
  • Teilen auf LinkedIn
  • Teilen auf Tumblr
  • Teilen auf Reddit
  • Per E-Mail teilen
https://www.compgen.de/wp-content/uploads/2021/12/MPI-Innovation.jpg 435 1187 Michael Rose https://www.compgen.de/wp-content/uploads/2019/01/CG-Logo02-340_156px-200x92.png Michael Rose2026-01-20 12:30:002026-01-20 19:09:56DES-Projekt Hochschulschriften: XXX. Jahrgang in der Erfassung mit noch mehr KI-Unterstützung
Diskutiere diesen Beitrag in unserer Community

RSS Neu auf Discourse

  • Icon / Logo für unser Discourse fehlt 9. März 2026
  • Lesehilfe Heiratsregistereintrag 9. März 2026
  • GOV-Tag und Anubis 9. März 2026
  • Formatierung Als Code in Discourse 9. März 2026
  • "Die Nachricht hat ein implizites Ziel" 9. März 2026

RSS Angesagte Themen

  • Benutzung der digitalisierten NSDAP-Mitgliederkartei
  • Verwendung vom KI zum Entziffern von Texten
  • DjVu - es geht voran
  • Mailinglisten-Modus veraltet? - NEIN!
  • Zoom-Vortrag am dritten Donnerstag im Februar: "Neue Funktionen in webtrees"

Filter Blogbeiträge nach Thema

Wähle Beiträge aus Monat

Newsletter

Sie können sich einmal wöchentlich
den CompGen-Blog Newsletter
per E-Mail zuschicken lassen.
Newsletter abonnieren
Newsletter abbestellen?
Passwort vergessen?

News-Redaktion

Anregungen oder Rückmeldungen zu Website und Blog gerne an news@genealogy.net

Schlagwörter

Ahnenblatt Ahnenforschung Ancestry Archion Berlin Brandenburg Citizen Science CompGen DAGV DES Digitalisierung Discourse DNA DNA-Genealogie Familienforschung FamilySearch Frankreich GEDCOM Genealogentag Genealogie GenWiki Hessen Juden Kirchenbücher Köln Landesarchiv NRW Leipzig MyHeritage Niederlande Niedersachsen Ortsfamilienbuch Personenstandsregister Polen Rheinland-Pfalz RootsTech Sachsen Sachsen-Anhalt Schweden Transkribus Wochenvorschau YouTube Zoom-Meeting Zoom-Meetings Österreich Österreich-Ungarn

Du möchtest den Verein für Computergenealogie unterstützen? Das freut uns!

Mitmachen... Mitglied werden... Jetzt spenden...

© Copyright - Verein für Computergenealogie e.V. (CompGen) - powered by Enfold WordPress Theme
  • Impressum
  • Datenschutz
Link to: „Detmolder Kirchenbuchkartei“ des ehemaligen Fürstentum Lippe ist online Link to: „Detmolder Kirchenbuchkartei“ des ehemaligen Fürstentum Lippe ist online „Detmolder Kirchenbuchkartei“ des ehemaligen Fürstentum Lippe ist onli...NRW-Landesarchivgemeinfrei Link to: Internationaler Tag der Handschrift Link to: Internationaler Tag der Handschrift Sütterlin SchreibschriftInternationaler Tag der Handschrift
Nach oben scrollen Nach oben scrollen Nach oben scrollen