Datenextrahierung aus Ortsfamilienbüchern: Künstliche Intelligenz oder klassische Programmierung?

Ko Autor: Rafael Biehler, Ko-Autorin: Linda Bettina Iberg

Anwendungen sogenannter Künstlicher Intelligenz (KI) sind auf dem Vormarsch und versprechen, Prozesse in vielen Bereichen – von Medizin und Wirtschaft bis hin zur Geschichtswissenschaft – grundlegend zu verändern. Auch bei der Rückgewinnung von Daten im Textformat aus Ortsfamilienbüchern (OFBs) stellt sich die Frage: Kann KI helfen, genealogische Informationen effizient und zuverlässig auszulesen und zu strukturieren?

Im Rahmen einer Pilotstudie als Teil der Initiative OFBScientificDatabase sind wir dieser Frage nachgegangen. Ziel war es, Daten aus Ortsfamilienbüchern im Textformat möglichst effizient und korrekt in eine strukturierte Form zu überführen – etwa für statistische Auswertungen oder die Ahnenforschung. Dafür haben wir jeweils 30 zufällige Familien aus drei Ortsfamilienbüchern detailliert untersucht: Ottersdorf [1], Schafhausen [2] und Zschortau [3]. Im Vergleich standen sich drei Strategien für die Datenrückgewinnung gegenüber:

1. Manuelle Auswertung: Informationen wie Geburtsdaten, Ehen, Todesfällen und familiäre Verknüpfungen werden manuell erfasst – eine bewährte, sehr genaue, aber auch sehr zeitintensive Methode, wie Sie beispielsweise bei der Familienrekonstitution zum Einsatz kam [4].

2. Automatisierte Auswertung mittels Programmcode: Ein speziell entwickeltes Python-Programm liest die relevanten Informationen automatisch aus und wandelt sie in eine einheitliche Datenstruktur um. Der Vorteil: Das Programm kann flexibel angepasst werden, um auf unterschiedliche Schreibweisen und Strukturen in den Büchern zu reagieren.

3. Verwendung von Künstlicher Intelligenz: Mithilfe sogenannter Large Language Models (LLMs) – konkret wurden Modelle von OpenAI (GPT-3.5 und GPT-4.0) sowie das Mixtral-Modell getestet – werden die Inhalte analysiert und verarbeitet. Dabei haben wir zwei Strategien eingesetzt: einen direkten Ansatz, der alle notwendigen Schritte unmittelbar durchführt, sowie ein zweistufiges Verfahren, bei dem zunächst die Daten extrahiert und anschließend in strukturierter Form aufbereitet werden.

Die mithilfe der KI und des Python-Codes gewonnen Ergebnisse haben wir im Anschluss mit jenen der manuellen Auswertung abgeglichen um ein umfassendes Bild für die Vollständigkeit und Korrektheit der automatisch generierten Daten zu erhalten.

Das Ergebnis: Ein klarer Vorsprung für das Python-Programm

Der programmierte Ansatz lieferte in über 95 % der Fälle korrekte Ergebnisse für die relevanten Variablen. Die getesteten KI-Modelle hingegen zeigten eine Reihe gravierender Schwächen – darunter fehlende Daten sowie falsche und erfundene Informationen (sogenannte „Halluzinationen“). Neben der inhaltlichen Qualität sprechen auch weitere Faktoren gegen den Einsatz von KI-Modellen zur Datengewinnung:

Reproduzierbarkeit: Im Gegensatz zum deterministischen Verhalten eines Python-Programms liefern KI-Modelle bei identischen Eingaben nicht zwangsläufig dieselben Ergebnisse. Das erschwert die Nachvollziehbarkeit, Vergleichbarkeit und spätere Reproduzierbarkeit der Analyse.

Kosten: Die Auswertung eines einzigen Ortsfamilienbuchs mithilfe der Large-Language Modelle kann – je nach Modell und Strategie – zwischen wenigen Euro und mehreren tausend Euro kosten oder den Einsatz einer entsprechend kostspieligen Hardware erfordern, wenn die Modelle lokal implementiert werden.

Energieverbrauch: Der Energiebedarf großer KI-Modelle ist erheblich [5]. In Zeiten des Klimawandels ist dies ein nicht zu vernachlässigender ethischer Aspekt.

Programmierkenntnisse: Auch wenn KI-Lösungen zunächst niedrigschwellig erscheinen, erfordert die sogenannte „Prompt-Programmierung“ – also das gezielte Anleiten der Modelle – ebenfalls spezialisiertes Wissen. Der vermeintliche Vorteil gegenüber klassischem Programmieren relativiert sich damit.

Skalierbarkeit des Python-Programms zur Auswertung weiterer Ortsfamilienbücher

Die Auswertung weiterer Ortsfamilienbücher erfordert eine Anpassung des Python-Programms an die entsprechenden Spezifika der Bücher. Diese lässt sich mit überschaubarem Aufwand implementieren und ermöglicht vergleichbare Ergebnisse, wie die Pilotstudie für sechs weitere OFBs zeigt: Brodau [6], Eisingen [7], Hardheim [8], Königsbach [9], Stein [10] und Werbelin [11]. Inzwischen haben wir mit Feldrennach [12], Neuenbürg [13], und Schmie [14] drei weitere OFBs ausgewertet und diese in Abbildung 1 ergänzt.

Fazit

Während Künstliche Intelligenz in vielen Bereichen großes Potential zeigt, verdeutlicht die Datenextraktion aus Ortsfamilienbüchern: Klassisch programmierte, strukturiere Lösungen sind bei gewissen Aufgaben derzeit der KI noch deutlich überlegen – insbesondere in Bezug auf Genauigkeit, Kosten, Transparenz und Nachhaltigkeit. Die Weiterentwicklung und gezielte Anpassung des bestehenden Programms stellt daher die bevorzugte Strategie für die Auswertung weiterer OFBs dar.

Abb. 1: Anteil der korrekt erfassten Informationen für je 30 zufällige Familien aus 12 Ortsfamilienbüchern

Weitere Details sind der Studie zu entnehmen: R. Stelter & R. Biehler (2025), Data retrieval from local heritage books—Is artificial intelligence the solution? Historical Methods: A Journal of Quantitative and Interdisciplinary History,

https://doi.org/10.1080/01615440.2025.2512744

Referenzen:

[1] Hahner, E., & E. Burster. 2000. Ortssippenbuch der Gemeinde Ottersdorf im Ried, Stadtteil von Rastatt, 1700–1913 und weiterer Quellen ab 1472: mit Anlagen über die familiengeschichtlichen Daten der ehemaligen Filialorte Plittersdorf und Winterdorf 1700–1807/08, Volume 264, Deutsche Ortssippenbücher/Reihe A. Stadt Rastatt.

[2] Haag, E. C. 1997. Ortssippenbuch Schafhausen mit vielen Evangelischen aus Dätzingen und Weil der Stadt, Kreis Böblingen, Württemberg 1525–1997, Volume 235, Deutsche Ortssippenbücher/Reihe A.

[3] Kunath, E.-N. 2016. Familienbuch Zschortau bei Leipzig, Volume 00.973, Deutsche Ortssippenbücher.

[4] Imhof, A. 1990. Lebenserwartungen in Deutschland vom 17.bis 19. Jahrhundert [Life expectancies in Germany fromthe 17th to the 19th century]. Weinheim: VCH, ActaHumaniora.

[5] de Vries, A. 2023. The growing energy footprint of artificial intelligence. Joule 7 (10):2191–4. doi: 10.1016/j.joule.2023.09.004.

[6] Kunath, E.-N. 2009. Familienbuch Brodau (Landkreis Nordsachsen), Volume 460, Deutsche Ortssippenbücher/Reihe B.

[7] Hahner, E. 2011. Genealogie der Ortschaft Eisingen. 2nd unpublished ed.

[8] Löhr, W. 2024. Ortsfamilienbuch Hardheim—Hardheim im fränkischen Odenwald. Updated version.

[9] Hahner, E. 2005. Ortssippenbuch der Gemeinde Königsbach—Teilgemeinde von Königsbach-Stein (Enzkreis), Volume 110, Badische Ortssippenbücher. Königsbach: Gemeinde Königsbach-Stein.

[10] Hahner, E. 2002. Ortsfamilienbuch Stein der GemeindeKönigsbach-Stein, Volume 6, Schriftenreihe des Kreisarchivs. Pforzheim: Der Enzkreis.

[11] Kunath, E.-N. 2004. Familienbuch Werbelin (Landkreis Delitsch) 1556 bis 1874, Volume 326 Deutsche Ortssippenbücher/Reihe B.

[12] Kling, H. 2007. Familienbuch der Pfarrei Feldrennach (Enzkreis), Volume 411, Deutsche Ortssippenbücher / Reihe A.

[13] Hahner, E. & K. Huber. 1997. Ortssippenbuch der ehemaligen Oberamtsstadt Neuenbürg mit kirchlichem Filial Waldrennach (Enzkreis), Volume 4, Schriftenreihe des Kreisarchivs. Pforzheim: Der Enzkreis.

[14] Metzger, M. & Evangelische Kirchengemeinde Schmie. 1999. Das Steinhauerdorf Schmie (Stadtteil v. Maulbronn). Volume 226, Deutsche Ortssippenbücher / Reihe A.

Kommentar verfassen