Badische Landtagsprotokolle im Volltext durchsuchbar

Stefan Unser und Jana Madlen Schütte 23.7.2021 12.02 Uhr

Seit Kurzem sind über 600 Bände der Badischen Landtagsprotokolle im Volltext durchsuchbar. In einem Projekt wurden diese in Kooperation mit OCR-BW, dem Kompetenzzentrum für Texterkennung der Universitätsbibliotheken Mannheim und Tübingen mit der Software Tesseract volltexterkannt und in die Digitalen Sammlungen der Badischen Landesbibliothek eingespielt.

Abbildung eines Buchbandes mit historischen Protokollen von 1918

Protokolle des Badischen Landtags seit 2012 online

Parlamentsschriften bilden sowohl auf Reich- als auch auf Länderebene eine zentrale Quelle für historische Fragestellungen und werden dementsprechend von der Forschung stark nachgefragt. Die Badische Landesbibliothek hat daher die über 600 Bände umfassenden Landtagsprotokolle von den Anfängen des Landtags 1819 bis zu seiner Auflösung 1933 vollständig digitalisiert und im Jahr 2012 online gestellt. Sie finden sie unter https://digital.blb-karlsruhe.de/Landtagsprotokolle/792873. Der Einstieg in die Recherche ist sowohl chronologisch als auch nach Abgeordneten möglich. Alle Redner wurden in einer Datenbank erfasst und mit weiteren Informationen z.B. zu von Ihnen gehaltenen Reden versehen. Allerdings waren die Bände bisher nicht im Volltext durchsuchbar.

Volltexterkennung

Dieser Aufgabe hat sich die BLB im letzten Jahr angenommen und konnte sie nun abschließen: Die technische Umsetzung und Massenverarbeitung erfolgt außerhalb der von der BLB eingesetzten Digitalisierungssoftware Visual Library auf einem Linux-Server. Dabei werden die Bilddaten mit einem dafür entwickelten Inhouse-Crawler (Download-Programm) aus Visual Library abgezogen und automatisiert verarbeitet. Anschließend erfolgt ein Re-Import der erzeugten OCR-Daten im Format ALTO (XML) über eine Import-Schnittstelle zurück in Visual Library.
Für die Volltexterkennung stehen Tesseract-Frakturmodelle zur Verfügung, die von OCR-BW mit KI-basierten Verfahren in Form neuronaler Netze entwickelt wurden. Zur Bestimmung der passenden Tesseract-Modelle wird vorab ein Test-Set ausgewählt, für das Ground Truth, d.h. intellektuell erzeugte Transkriptionen, erstellt werden. Damit kann in Testläufen die Erkennungsrate verschiedener Modelle referenziert werden. Zur Bewertung der Ergebnisse kommt die Software ALETHEIA und das semantics-Tool TEXTLAB zum Einsatz.
Für jedes Bild wird eine OCR-Erkennung durchgeführt und zusätzlich eine Text-Datei (zur visuellen Kontrolle) erzeugt. Das Beispiel zeigt die Kommandozeile sowie die Bilddatei und daneben den erkannten Text. Das „lange s“ wird abhängig von der Suchumgebung (PDF, Web) auch als „kleines s“ erkannt bzw. gefunden.

 

 

Gegenüberstellung eines originalen Textes und dem Pendant der Texterkennung

Recherche in den Volltexten der Landtagsprotokolle

Für die Nutzerinnen und Nutzer unserer Digitalen Sammlungen ist nun die Suche über den Volltext der ersten oder zweiten Kammer sowie auch nur über einen ausgewählten Jahrgang möglich. Dazu klickt man wahlweise auf eine Kammer oder einen bestimmten Jahrgang und gibt seinen Suchbegriff dann rechts oben im Suchschlitz ein. Wir wünschen viel Spaß beim Ausprobieren!

 

Visuelle Darstellung eines Suchergebnises bei einer Recherche im Volltext der Landtagsprotokolle

Nicht unterstützter Web-Browser!

Ihr verwendeter Web-Browser ist veraltet und kann daher einige der modernen Funktionen der Webseite www.blb-karlsruhe.de nicht unterstützen.
Um diese Webseite nutzen zu können und sich sicher im Internet zu bewegen, verwenden Sie bitte einen der folgenden Web-Browser:

Mozilla inc., Firefox
Google inc., Chrome
Google inc., Chromium