5. Automatische Texterkennung und Transkriptionskorrektur

Für die Erstellung einer ersten Transkription wird der Dienst Transkribus1 verwendet. Diese an der Universität Innsbruck entwickelte und im Rahmen des EU-Programms Horizon 2020 geförderte Software bietet unter anderen folgende Möglichkeiten, die dem Umgang mit historischen Quellen entgegen kommen:

  • Verwaltung von Dokumenten in nicht-öffentlichen Sammlungen.
  • Erkennung von Handschriften mit einem lernenden Algorithmus (HTR Engine) sowie Fraktur- und Antiqua-Drucken mit dem Abbyy Finereader.
  • Bearbeitung durch mehrere Nutzende, denen verschiedene Bearbeitungsrechte zugeordnet werden können.
  • Zuweisen von Bearbeitungsständen und Vorhalten der Bearbeitungsgeschichte je Seite.
  • Das Korrekturinterface bietet eine konfigurierbare „Virtuelle Tastatur“ für Sonderzeichen.
  • Export des Volltextes in verschiedene Zielformate (u.a. PDF und TEI).
  • Über eine API ist eine Integration in Abläufe mit eigenen Tools möglich.

Nach dem Anlegen eines NutzerInnen-Kontos, dem Herunterladen und Starten des sogenannten Experten-Tools werden damit als erstes die aus der PDF-Datei extrahierten JPEG-Dateien auf die Server der Plattform übertragen. Die Texterkennung wird ebenso auf diesen Servern durchgeführt2 wie dort der Volltext vorgehalten wird.

Für die – angesichts seiner zentralen Bedeutung – in der Oberfläche recht versteckte Texterkennung wird der Abbyy Finereader mit dem Profil für gemischte Antiqua-/Fraktur-Drucke verwendet. Sobald die Texterkennung auf dem Server durchgeführt wurde, ist jeder Seite ein Volltext und eine Beschreibung der Layoutelemente zugeordnet. Letztere ist das Ergebnis einer automatischen Layout-Analyse, die vermeintlich erkannte Seitenbereiche in Rechtecken zu bestimmten Typen zusammenfasst, zum Beispiel Textblöcke oder Grafiken. Dabei sorgen der nach DFG-Vorgaben belassene Umlauf und die Maßstabskarte zuverlässig für nicht erwünschte Erkennungen, die aber mit den verfügbaren Auswahlwerkzeugen zügig entfernt werden können. Für die folgende Korrektur der Transkription ist eine saubere Markierung der Bereiche in der Ansicht des Digitalisats unabdingbar, auch für die darauf folgende Auszeichnung der Transkription werden so grundlegende Strukturen definiert.

Deshalb sollten auch Textzeilen innerhalb eines Textabschnitts korrekt umrissen sein. Sie bilden die Basis für die folgende Korrektur, die zeilenweise erfolgt. Dabei wird die aktuell bearbeitete Zeile in der Ansicht der Faksimile hervorgehoben, siehe Abbildung 5.1. Nun machen sich die zum Teil unbefriedigenden Ergebnisse des Digitalisierens bemerkbar. Vor allem die wellenförmig verzerrte Seitenaufnahmen resultieren in völlig „verrückten“ und ausbleibenden Erkennungen von Textabschnitten, Zeilen und Worten (vgl. Abbildung 5.2). Dies muss recht mühselig mit den Zeichenwerkzeugen, die durchaus an solche aus moderner CAD-Software bekannten erinnern, aber an deren Komfort nicht heran reichen, korrigiert werden. Die Auswirkungen der Unzulänglichkeiten des Druckträgers, dunkle Einschlüsse im Papier und das Durchscheinen des rückseitigen Druckes, sind marginal. Probleme bei der Erkennung von Zeichen im Frakturdruck sind zum Teil regelmäßig, vor allem die Nicht-Diskriminierung von f und langem s (ſ) sowie das Erkennen von Ligaturen – und wären zum Teil durch eine dokumentweite Suchen-und-Ersetzen-Funktion zu korrigieren, eine solche gibt es jedoch nicht. Das durchgängige Ersetzen des richtig erkannten ſ durch s durch die Texterkennung erfordert eine aufwendige Nachkorrektur, die durch ein Ersetzen im Kontext von Buchstabengruppen und Morphemen, in denen das Vorkommen des ersteren zwangsläufig ist, etwas zu erleichtern ist.

Bei der Erkennung von Tabellen versagt die Texterkennung meist vollends, auch ist eine Auszeichnung von Spalten und Zeilen als solche nicht möglich. Es ist also ratsam, solche Phänomene im nächsten Schritt schlichtweg abzutippen.

_images/04_01_Transkribus_ocr.png

Abbildung 5.1 Transkribus: Ansicht von Seite 5 unmittelbar nach der automatischen Texterkennung; links die Layoutelemente in einer Baumansicht, oben rechts Ansicht eines Ausschnitts der Faksimile mit umrissenen Elementen, unten rechts die Eingabe zur Korrektur. Die ausgewählte Zeile wird jeweils in den drei verschiedenen Ansichten hervorgehoben.

_images/04_02_wellen_erkennung.png

Abbildung 5.2 Transkribus: Vermeintlich erkannte Textabschnitte sind grün, Zeilen blau und Worte rot umrissen.

Auf die Nutzung der strukturellen Metadaten, also eine Auszeichnung von Textblöcken gemäß ihrer Rolle im Druck – Überschriften, Absätze, Fußnoten beispielsweise – wurde verzichtet. Die Zuordnungen werden lediglich in der Baumansicht aller Elemente einer Seite – hierbei ist kein intuitiver Bezug zur angezeigten Faksimile möglich – oder je einzeln ausgewählten Element angezeigt. Für eine ganze Seite ist nicht auszumachen, welche Teile davon bereits wie qualifiziert worden sind und welche nicht. Gleiches gilt für die Möglichkeiten zur typographischen und semantischen (im „Experten-Tool“ Tagging genannt) Auszeichnung.

Bei der Gestaltung des Werkzeuges wurde vielleicht auch zu „informatisch“ gedacht. Zwar ist es sicher schon aus didaktischen Erwägungen sinnvoll, die Werkzeuge in den Kategorien der deskriptiven, strukturellen, typographischen und semantischen Metadaten getrennt zu halten. Die kategorielle Anordnung der verschiedenen „Werkzeuge“ in der Oberfläche ist jedoch nicht stringent umgesetzt, teils sogar redundant.3 Die verschiedenen Benutzereingaben, die nötig sind, um einen Textabschnitt mit bestimmten Eigenschaften auszuzeichnen, wirken irritierend und lassen kein flüssiges Arbeiten zu. Auch die in der Umsetzung sich gegenseitig ausschließende Auswahl der „Werkzeuge“, die in verschiedenen Reitern gruppiert sind, wirkt unergonomisch. Diese Auszeichnungen sind also übersichtlicher mittels eines Text-Editors im folgenden Bearbeitungsschritt zu bewerkstelligen.

Die Funktionen der Plattform und des „Experten-Tools“ sind in einem Wiki4 dokumentiert – gleichwohl bemerkbar ist, dass für dessen Pflege nicht ausreichend Ressourcen vorhanden sind. Fehlerberichte und Funktionsvorschläge für das „Experten-Tool“ können über eine Eingabemaske in diesem oder den Issue Tracker5 kommuniziert werden. Insgesamt ist dem Werkzeug anzumerken, dass es noch viel Potential für eine einfachere und umfangreichere Bearbeitung gibt. Für den Übergang vom Digitalisat zum Derivat bietet es aber eine solide Lösung für eine breite NutzerInnen-Basis; und es wäre auch schade, wenn diese Qualität unter einer ausufernden Anreicherung mit Funktionalitäten in einem Werkzeug leiden würde.

Fußnoten

[1]https://transkribus.eu/; für das Vorhaben wurde der Client in der Version 1.3.2 verwendet.
[2]Womit die NutzerInnen nicht mit Lizenzfragen der genutzten Software tangiert werden. Auch muss der Rechner zur Bearbeitung lediglich genügend Ressourcen zum Benutzen des Clients aufbieten, Rechenkapazitäten für die automatische Texterkennung werden nicht gebraucht.
[3]Während die strukturellen Metadaten – also die Beschreibung der grundlegenden Layoutelemente – in einem eigenen Reiter zu finden sind, sind alle weiteren Typen in einem anderen mit weiteren Reitern zusammengefasst. Dabei sind auch verschiedene Bezugsgrößen das Ziel der Funktionalitäten, vom ganzen Dokument über weitere Spezifizierungsmöglichkeiten von Seitenabschnitten bis auf Zeichenebene.
[4]https://transkribus.eu/wiki/
[5]https://github.com/Transkribus/TranskribusSwtGui/issues