Mit dem „Swedish Lion“ Handschriften aus schwedischen Archiven lesen
Olof Karsvall vom schwedischen Nationalarchiv hat in den vergangenen Jahren ein KI-Modell zum Entziffern handschriftlicher Texte aus der Zeit von 1650 bis 1900 entwickelt und ihm den Namen „Swedish Lion I“ gegeben. Dieses Modell wurde mit Texten mit Millionen von Zeilen und Wörtern aus alten schwedischen Dokumenten trainiert. Dabei haben Partnerarchive in Schweden und Finnland, aber auch Freiwillige und Forscher der Universitäten Stockholm und Uppsala mitgearbeitet.
Dieses spezielle KI-Modell kann auch mit der Texterkennungssoftware Transkribus von READ-COOP verwendet werden. Mikael Winbladh von unserer schwedischen Schwestervereinigung DIS hat dazu eine Anleitung geschrieben, wie man das neue Modell für schwedischsprachige historische Dokumente verwenden kann.
HTRflow Open-Source-Anwendung des Nationalarchivs
Mit HTRflow – einem der Hugging Face Spaces – hat das Nationalarchiv eine eigene Anwendung zur Texterkennung mit dem „Swedish Lion“ erstellt. In diesem Jahr kam eine aktualisierte und benutzerfreundlichere Version heraus, die zusammen mit der Forschungsinfrastruktur Huminfra entwickelt wurde. Die Anwendung und der Code zur Texterkennung sind Open Source und stehen auf GitHub zur Verfügung: APP und HTRflow. Eine Demoversion erlaubt die Texterkennung auf maximal fünf Bildern.

Auf dieser Seite des Nationalarchivs werden die seit April 2025 transkribierten Archivalien aufgelistet. Unter den ersten Quellen sind Hexenprozesse, Gerichts- und Polizeiakten.
ArkivDigital „liest“ Gerichtsprotokolle
Das kostenpflichtige Internetarchiv ArkivDigital mit seine digitalisierten Originalquellen aus Schweden für die Familien und Ahnenforschung nutzt ebenfalls HTRflow des Nationalarchivs und das Texterkennungsmodell „Swedish Lion“. Damit wurden große Mengen an Gerichtsprotokollen gelesen und durchsuchbar gemacht. Derzeit kann man in fast 1,6 Millionen Bilder von 2.000 Handschriften-Bänden der Gerichte Svea, Göta und Villand nach Namen, Orten, Ereignissen, Berufen oder Straftaten suchen.
HTRflow liest nur schwedischsprachige Texte. Fehlerfrei ist die Texterkennung nicht. Die Fehlerrate wird mit 4 % angegeben. Man muss also immer noch selbst die Originalquellen analysieren. Aber das Lesen und die Suche werden bequemer und einfacher gemacht.