• Link zu Facebook
  • Link zu Instagram
  • Link zu Youtube
  • Sitemap
  • Downloadbereich
  • Blog
Verein für Computergenealogie e.V. (CompGen)
  • Anmeldung
  • Recherchieren
    • Datenbanken
    • GenWiki
    • Blog-Archiv
    • Namensverbreitungskarte
  • Kommunizieren
    • Veranstaltungen
    • Discourse
    • Mailinglisten
    • Forum
    • Social Media
  • Informieren
    • COMPUTERGENEALOGIE
    • FAMILIENFORSCHUNG
    • CompGen-Blog
    • DigiBib
  • Über uns
    • Ziele
    • Satzung
    • Kooperationen
    • Mitmachen
    • Mitgliedschaft
    • Spenden
    • Vorstand
    • IT-Ressort
  • Kontakt
  • Menü Menü
Logo-ComSys.png

Experiment zu double keying

28. März 2015/in DES Datenerfassungssystem, Wissen/von CG Redaktion

Original-Text aus dem Blog des Institut für Informatik der CAU Kiel 

Bei der Erfassung von textuellen Einträgen aus historischen Dokumenten in einem Crowdsourcing Projekt ist die Qualität der Ergebnisse besonders wichtig. Zu diesem Zweck wurde im Zuge der Masterarbeit “Entwicklung und Bewertung von Verfahren zur hochqualitativen und effizienten semi-automatischen Text- und Strukturerkennung bei historischen Quellen” in den vergangenen Monaten das Dateneingabesystem des Vereins für Computergenealogie (CompGen-DES) durch ein Instrument zur Sicherung der Qualität der Daten erweitert.

Bisher verwendete das Dateneingabesystem das Prinzip der einfachen Erfassung, in dem jeder Eintrag einmal erfasst wurde. Wenn auf einer Seite alle Einträge erfasst waren, wurde die Seite von einem Nutzer als fertig gemeldet. Das neue Instrument, welches die Qualität der Daten sichern soll, ist die n-fache Erfassung, dabei wird jeder Eintrag initial von zwei Nutzern erfasst, danach werden die Einträge verglichen. Gibt es eine Übereinstimmung, wird angenommen, dass der Eintrag korrekt erfasst wurde. Gibt es beim Vergleich keine Übereinstimmung, so wird der Eintrag erneut erfasst, bis zwischen den Nutzern eine mehrheitliche Übereinstimmung gefunden wird. Eine Seite ist damit erst fertig erfasst, wenn für alle Einträge eine solche Übereinstimmung gefunden wurde.

Generierte Seite im Aussehen der Schweizer Interniertenlisten von 1916 ähnlichDer Vergleich und alle dazugehörigen Regelungen werden vom System übernommen, der Nutzer kann wie gewohnt die Bearbeitung einer Seite durchführen. Um nun die Qualität der einfachen Erfassung und die der n-fachen Erfassung gegenüberstellen zu können, benötigt man eine Seite, deren Erfassungsergebnis bereits bekannt ist. Diese bekannte Ergebnismenge bezeichnet man auch als Ground Truth. Durch die Ground Truth lässt sich bereits nach der ersten Erfassung einer Seite feststellen, wie hoch die Abweichungen der Erfassung von dem Idealergebnis sind. Würde man die Ground Truth nicht kennen, so könnte man zwischen den Erfassungsarten nur die Verbesserung von einer zur nächsten Erfassung darstellen, sich aber nicht auf die Güte der Daten beziehen.

Aus diesem Grund wurde im Dateneingabesystem ein Testprojekt angelegt, in welchem sich viele “Scans” einer Seite befinden, die aus bereits bekannten Daten generiert wurde. Diese Seite wurde der Liste der deutschen Internierten in der Schweiz von 1916 nachempfunden, da hier besonders viele interessante Fälle vorkommen.

Für die Auswertung hoffen wir auf möglichst viele fleißige Mithelfer, die sich an diesem Test beteiligen, indem Sie eine oder mehrere Seiten in dem Testprojekt erfassen.

Hier geht es zum Testprojekt. Vorher sollte man sich jedoch die Bedienungsanleitung des DES und die Editionsrichtlinien durchlesen, damit man auch alles so eingibt, wie geplant. Man braucht zum Mitmachen allerdings einen (kostenlose) Nutzeraccount von genealogy.net.

Bildunterschrift: Generierte Seite im Aussehen der Schweizer Interniertenlisten von 1916 ähnlich

Allen Teilnehmenden vielen Dank, dass Sie sich die Zeit nehmen und aktiv an der Verbesserung des Dateneingabesystems mitwirken.

Original-Text aus dem Blog des Institut für Informatik der CAU Kiel
https://comsys.informatik.uni-kiel.de/res/experiment-zu-double-keying/ 

Eintrag teilen
  • Teilen auf Facebook
  • Teilen auf WhatsApp
  • Teilen auf Pinterest
  • Teilen auf LinkedIn
  • Teilen auf Tumblr
  • Teilen auf Reddit
  • Per E-Mail teilen
https://www.compgen.de/wp-content/uploads/2018/04/Logo-ComSys.png 177 513 CG Redaktion https://www.compgen.de/wp-content/uploads/2019/01/CG-Logo02-340_156px-200x92.png CG Redaktion2015-03-28 20:51:122022-03-26 15:20:19Experiment zu double keying
Diskutiere diesen Beitrag in unserer Community

RSS Neu auf Discourse

  • Digital genealogy - 16. Juni 2025
  • Zugriff auf Zeitschrift Computer Genealogie beim Pferdesportverlag 16. Juni 2025
  • Zugriff auf Zeitschrift Computer Genealogie beim Pferdesportverlag 16. Juni 2025
  • KÖSTER oo SCHULZ aus RFendsburg 16. Juni 2025
  • Anbindung ans Fediverse 16. Juni 2025

RSS Angesagte Themen

  • Transportliste Landkreis Breslau Nr. 394 Breslau-Warendorf
  • Genanntnamen
  • Wann ein OFB Lauban?
  • Transportlisten 06/1946
  • Statistik zu den Mitgliedern im Verein für Computergenealogie

Filter Blogbeiträge nach Thema

Wähle Beiträge aus Monat

Newsletter

Sie können sich einmal wöchentlich
den CompGen-Blog Newsletter
per E-Mail zuschicken lassen.
Newsletter abonnieren
Newsletter abbestellen?
Passwort vergessen?

News-Redaktion

Anregungen oder Rückmeldungen zu Website und Blog gerne an news@genealogy.net

Schlagwörter

Ahnenblatt Ahnenforschung Ancestry Archion Berlin Brandenburg Citizen Science CompGen DAGV DES Digitalisierung Discourse DNA Familienforschung FamilySearch Frankreich Friedhof GEDCOM Genealogentag Genealogie GenWiki Hessen Juden Kalender Kirchenbücher Köln Landesarchiv NRW Leipzig MyHeritage Niederlande Niedersachsen Ortsfamilienbuch Personenstandsregister Polen RootsTech Sachsen Sachsen-Anhalt Schweden Transkribus Wochenvorschau YouTube Zoom-Meeting Zoom-Meetings Österreich Österreich-Ungarn

Du möchtest den Verein für Computergenealogie unterstützen? Das freut uns!

Mitmachen... Mitglied werden... Jetzt spenden...
© Copyright - Verein für Computergenealogie e.V. (CompGen) - powered by Enfold WordPress Theme
  • Impressum
  • Datenschutz
Link to: Fragebogen “Nutzererwartungen an digitalen Archiven” Link to: Fragebogen “Nutzererwartungen an digitalen Archiven” Fragebogen “Nutzererwartungen an digitalen Archiven” Link to: Von offenen Daten zu verwendbaren, offenen Daten Link to: Von offenen Daten zu verwendbaren, offenen Daten 2000px-LOD_Cloud_Diagram_as_of_September_2011.svg.pngVon offenen Daten zu verwendbaren, offenen Daten
Nach oben scrollen Nach oben scrollen Nach oben scrollen