6. Die Auszeichnung des Volltextes

6.1. Überblick

Nun liegt also eine in Textabschnitte und Zeilen gruppierte Zeichenfolge vor, die als Unicode kodiert die im Druck vorliegenden Zeichen repräsentiert. Dieser Repräsentation mangelt es aber an den typographischen Unterschieden in der Quelle, die über das Zusammenfügen der Zeichen zu Worten, Wortgruppen und Sätzen hinaus eine Bedeutung transportieren, zum Beispiel die Relevanz, die der Autor der im Sperrdruck gesetzten Aussage „Giftig!“ zueignet. Somit hat die Transkription im Vergleich zur Vorlage also Inhalte verloren. Hinzu kommt, dass Zeichenfolgen weder eine eindeutige noch eine statische Bedeutung tragen. Während Menschen ihr Interpretationsverhalten diesem Umstand Rechnung tragend häufig durchaus adaptieren können, geht Maschinen, die im Weiteren für eine Neu-Repräsentation und Insverhältnissetzen von Informationen dienlich gemacht werden sollen, diese Fähigkeit weitestgehend ab.1 Der Text muss also mit den verlorenen typographischen Eigenschaften ausgezeichnet/annotiert werden.

Das Auszeichnen/Annotieren dient auch der Ausweitung der Informationen eines Textes, die für menschliche Lesende vor allem aufgrund kulturellen Wissens und des Erkennens von Mustern ersichtlich sind. Als Beispiel sei diese reine Wiedergabe von Schriftzeichen gegeben2:

    10) Der Begräbnisplatz

für die am 18/19. März 1848 Gefallenen aus dem Bürgerstande.
  […] Er enthält 10 Ruthen im Quadrat und ist von einer hohen Einfassung
von Caragena arboresceno (Erbsenstrauch) eingehegt.

Unter anderem diese Informationen sind enthalten oder zum Verständnis notwendig ohne explizit benannt zu werden:

  • Es handelt sich um einen Textabschnitt, der ein in einer Überschrift benanntes Thema erörtert. Die Überschrift ist per Konvention als solche durch den Leerraum zum folgenden und die Einrückung erkennbar.
  • Der Textabschnitt ist einer von mindestens zehn gleichartigen. In diesem Fall ist ihnen gleich, einen Teilraum des Friedrichshains zu beschreiben.
  • Es werden die Opfer eines Aufstandes zur Überwindung der Adelsherrschaft und zur Durchsetzung weiterer Emanzipationsbestrebungen benannt.
  • Dieses Ereignis wird durch eine Angabe gemäß dem gregorianischen Kalender datiert. Dabei konjugiert der Schrägstrich als ‚und‘, nicht als ‚oder‘.
  • Der beschriebene Platz wird in einer zeitgenössischen, ortsspezifischen Bezugsgröße hinsichtlich seiner Ausdehnung qualifiziert.
  • ‚Caragana‘ bezeichnet in Bezug auf die botanische Taxonomierung eine Gattung, ‚arboresceno‘ eine Art.
  • ‚Erbsenstrauch‘ ist ein deutschsprachiges Synonym für ‚Caragena arboresceno‘.

Als Format für solche Auszeichnungen / Annotationen schreibt die DFG im Grundsatz XML-TEI vor, und auch für die Langzeitarchivierung von Transkriptionen.3

6.2. Die Text Encoding Initiative

Die Text Encoding Initiative (TEI) bezeichnet ein Konsortium sowie die von diesem herausgegebenen Richtlinien zur Auszeichnung von Texten mittels XML. Das durch Letzteres definierte Datenformat wird ebenso als TEI oder auch XML-TEI bezeichnet. Die Richtlinien sollen für verschiedenste Quellen und Vorhaben verwendbar sein, so dass in der Ausgabe P5 569 Elemente und 256 Attribute im Namensraum http://www.tei-c.org/ns/1.04 zur Verfügung stehen. Eine Diskussion der verschiedenen Einsatzbereiche würde hier den Rahmen sprengen, für einen Gesamtüberblick sei auf das Inhaltsverzeichnis der Richtlinien5 verwiesen. Das Spektrum der Möglichkeiten reicht von der Beschreibung einzelner Glyphen bis zur Deklaration eigener Taxonomien für Klassifizierungen von Textinhalten. Die meisten Auszeichnungsmöglichkeiten dienen bereits der Kategorisierung und Annotation von Inhalten in abstrakteren Kategorien, als denn der Beschreibung von Merkmalen des Layouts einer Quelle.6 Identische Sachverhalte können mitunter auf verschiedene Weise ausgezeichnet werden, zum Beispiel der Umfang einer Textzeile:

<l>In lyrischen Werken werden Textzeilen vom Element "l" umschlossen.</l>
<lb />In anderen Texten markiert ein leeres Element "lb" den Beginn einer Zeile.

Für konkrete Projekte schlagen die DFG-Richtlinien vor, spezifische Schemata der zu verwendenden Elemente und Attribute zu erstellen7. Zum einen sollte aus der Vielzahl der Möglichkeiten eine Reduktion vorgenommen werden, oder auch – so denn die vorliegenden Phänomene eines Textes nicht mit dem Vorliegenden hinreichend annotiert werden können – Erweiterungen erstellt werden. Angesichts der geradezu überbordenden Optionen ist dies spätestens bei der Zusammenarbeit mehrerer Forschenden und als Bezugsnorm für spätere Verarbeitungen auch praktisch notwendig. Zu diesem Zweck hat das TEI Konsortium eigens das Deskriptions-Schema ODD („One Document Does it all“)8 , das wiederum in den TEI-Richtlinien definierte Elemente und Attribute verwendet, entwickelt. Des weiteren dazugehörige Werkzeuge zur Generierung von Schemata aus demnach formulierten Dokumenten.9

Ohne, dass hier das TEI-Ökosystem detaillierter betrachtet wurde, sollte deutlich geworden sein, dass der Aufwand und das notwendige Spezialwissen, für ein kleines Vorhaben wie dieses ein geeignetes Schema zu entwickeln, eher ein Hindernis darstellen und als immer wiederkehrender Vorgang bei einer Zunahme von digitalen Editionsvorhaben in der Breite praktisch nicht zu rechtfertigen ist.10

6.3. Das Deutsche Textarchiv Basisformat

Zielführender ist in dieser Hinsicht der Hinweis der DFG, das TEI-basierte „Deutsche Textarchiv Basisformat“ (DTABf) für Sprachkorpora zu verwenden11. Dieser auf 113 Elemente für den Textbereich und 56 für den Kopfbereich12 reduzierte und in wenigen Teilen erweiterte Standard wurde im Rahmen des DFG-geförderten Projektes „Deutsches Textarchiv“ (DTA) entwickelt, einem in erster Linie für die linguistische Forschung erstellten Grundlagenkorpus, der heuer 3.275 neuhochdeutsche Texte verschiedener Textsorten und -genres aus dem 17. bis zum 19. Jahrhundert umfasst.13 Die Bestimmung als Basis im Namen des Formats ist allerdings – soviel sei schon vorweg genommen – irreführend14; in seiner jetzigen Form erfüllt das Format die Anforderungen, die sich konkret aus denen an dieses Projekt (das DTA) ergeben.

Aufgrund der Verwendung für eine breite Repräsentanz gedruckter, deutschsprachiger Texte ist anzunehmen, dass dieser Standard für die Auszeichnung des Transkriptes der Holzgewächse geeignet ist, dessen Grundlage in den Sprach- und Zeitraum fällt, dem das DTA zugedacht ist. Zudem spricht die deutschsprachige, mit vielen, praktischen Beispielen gespickte Dokumentation des Formats15, die weitestgehend intuitiv genug strukturiert ist, um nach relativ kurzer Einarbeitungszeit Hinweise zur Behandlung konkreter Phänomene aufzufinden, für dessen Verwendung. Komplementär sind dazu Transkriptionsrichtlinien formuliert, die eine grundlegende Orientierung bei der Arbeit geben. Außerdem können je ein Schema im RelaxNG- und Schematron-Format bezogen werden16 und im XML-Editor Oxygen17 bei der Bearbeitung eingebunden werden, wodurch bei der Eingabe von Elementen, Attributen und Attributwerten eine Autovervollständigung verfügbar ist sowie eine ständige Konformitätsprüfung vollzogen wird und fehlerhafte Stellen im Dokument gegebenenfalls hervorgehoben werden.

Das Ergebnis der Transkription kann über die URL https://die-holzgewächse-des-friedrichshains.de/data/documents/buch.xml bezogen werden.

6.4. Praktische Beispiele und Methodenreflektion

Das im vorigen Kapitel vorgestellte Transkribus ermöglicht auch einen Export der damit erarbeiteten Transkription in das TEI-Format. Entsprechend der beschriebenen, vorgenommenen Strukturierung sind innerhalb des Textkörpers nun lediglich die Elemente pb (Seitenbeginn), p (Textabsatz) und lb (Zeilenbeginn) vorhanden.18

Die folgenden Beispiele sollen keinen Überblick über die Struktur von TEI oder den Gesamtumfang des DTABf geben – beides leistet die Dokumentation des letzteren hervorragend, sondern möglichst diverse Schlaglichter auf die in den „Holzgewächsen“ vorgenommenen Auszeichnungen werfen, Bemerkenswertes diskutieren und so einen lückenhaften aber hinreichenden Eindruck des Formates vermitteln.

6.4.1. Seitenzahlen und Kolumnentitel

Die regelmäßigen Seitenzahlen und Kolumnentitel wurden mit einem Algorithmus in die Zielstruktur transformiert.

_images/05_01_seitenzahl_kolumnentitel.png

Abbildung 6.1 Faksimileausschnitt mit Seitenzahl und Kolumnentitel; [Jahn1864], Seite IV

Quelltext 6.1 Umsetzung im DTABf / TEI-XML
 <pb facs="#f05" n="IV"/>
 <fw type="header" place="top">Vorwort.</fw><lb/>

Im pb-Element sind eine Referenz auf die zugrunde liegende Faksimile aus den fortlaufend nummerierten mit dem Attribut facs und die im Druck angegebene Seitenzahl als Attribut n angegeben. Das fw-Element (für seitenbezogene Inhalte) wird als type="header", also Kolumnentitel, der oben (place="top") erscheint, spezifiziert. Im Gegensatz zum pb wird der Textinhalt in diesem Fall als Elementtext gefasst, da er weitergehende Auszeichnungen enthalten könnte. Dass dies im Falle der Seitenzahl über ein Attribut des pb-Elements geschieht, verfolgt vermutlich die Absicht, eine fehlerhafte Verwendung des Elementtextes mit dem Seiteninhalt zu vermeiden. Den Hintergrund hierzu bildet die Einsicht, dass Druckseiten keine logischen, den Text strukturierenden Einheiten sind, sondern physische, medienbezogene. Deshalb wird das pb- wie auch das lb-Element als milestone-Elemente betrachtet, die keinen Text beinhalten und lediglich die Stelle des Auftretens dieses physischen Phänomens markieren.19 Somit kommt es nicht zur Überlappung mit Auszeichnungen logischer Text-Einheiten wie Absätzen und Kapiteln, die aufgrund der Baumstruktur von XML unmöglich ausgedrückt werden können.

6.4.2. Textabschnitte und Überschriften

Textabschnitte werden hierarchisch in Kaskaden von div-Elementen gekapselt, der ganze Textkörper besteht aus einer Reihe solcher Elemente, die wiederum ebenso Unterabschnitte enthalten. Diese beginnen in der Regel mit einer Überschrift, die in einem head-Element gefasst wird.

Quelltext 6.2 Hierarchisierung und der Textabschnitte mit Überschriften
 <text>[…]<body>
   <div type="preface">
     <head>Vorwort.</head></div>
   <div type="chapter">
     <head>Geſchichtliche und ſtatiſtiſche Notizen[…]</head></div>
   <div type="chapter">
     <head>Verzeichniß der Holzgewächſe des Friedrichshains.</head>
     <div type="plant_class">
       <head>I. Klaſſe. Gymnospermen. Nacktſamige Holzpflanzen.</head>
       <p>[…]</p>
       […]
       <div type="plant_family">
         <head>I. Familie. Abietineen. Tannen–Gewächſe.</head>
         […]
       </div>
     </div>
   </div>
 </body>[…]</text>

In den type-Attributen werden die Abschnitte kategorisiert, die Kategorien preface (Vorwort) und chapter (Kapitel) entsprechen den Vorgaben des DTABf, plant_class und plant_family wurden selbst festgelegt, um das Verzeichnis der Pflanzen später sinnvoll verarbeiten zu können, denn eine Korrelation zwischen Hierarchieebene und taxonomischer Kategorie gibt es nicht, während im Gegensatz zu einer heuristischen Kategorisierung der Aufwand einer manuellen klar abzuschätzen und überschaubar ist. Des weiteren wurden für das Vorhaben die Kategorien plant_genus (Gattung), plant_subgenus (Untergattung), plant_species (Art, es werden im Verzeichnis aber auf gleicher Ebene auch Varietäten ohne eine übergeordnete Art genannt)20 und plant_phenogroup (für vom Autoren an verschiedenen Stellen vorgenommene Gruppierungen, die vermutlich das Auffinden im Buch erleichtern sollten, aber immer auch für das Gruppierte beschreibend sind) verwendet. Diese Ergänzungen werden später noch einmal zum Potential des DTABf diskutiert. Auf eine Durchnummerierung der Hierarchieebenen mit einem n-Attribut, die nach DTABf „in der Regel“21 vorgenommen werden, wurde verzichtet, da dies nun mal eine transitive Eigenschaft aus der Struktur ist und eine redundante Annotation allenfalls eine Fläche für Inkonsistenzen böte.

Mit dieser Hierarchisierung ändert sich die Struktur des Dokuments deutlich und erhält seine erste wesentliche semantische Anreicherung. Aus dieser lässt sich zum Einen ein Inhaltsverzeichnis ableiten, das es im Druck nicht gibt. Zum Anderen – und das ist zur Reflektion auf das editionswissenschaftliche Paradigma der Unterscheidung von Befund und Deutung relevant – wird somit bereits die Quelle gedeutet. Nämlich insofern, dass die vorgefundenen Formulierungen und ihre typographischen Eigenschaften in eine eindeutige Ordnung systematisiert werden. Dass das Verzeichnis der Pflanzen taxonomiert ist, ist offenkundig, wird vom Autoren jedoch lediglich auf dem Titelblatt und im Vorwort als „nach natürlichen Familien geordnet“22 angegeben. Deutlich wird dieser Umstand vor allem auf den als unteren Ebenen identifizierten. Dort kommen keine klaren Bezeichnungen wie „Klasse“ oder „Familie“ vor. Pflanzenarten und Varietäten werden in gleicher Weise dargestellt, vom Autor wurden unregelmäßig – im Druck als Zwischenüberschriften erscheinende – Kategorien eingefügt, scheinbar um Familien, Gattungen oder Arten mit gemeinsamen phänotypischen Eigenschaften zu gruppieren. Das scheint vielleicht trivial, doch es muss festgestellt werden, dass dieser eindeutigen Strukturierung weiter die Unsicherheit zugrunde liegt, ob das nun Erfasste mit dem vom Autoren Gemeinte identisch ist und bereits grundlegend für eine spätere Verwendung der Taxonomie im Werk ist, wenn nicht gar diese im Wesentlichen vorwegnimmt und es sich in diesem Bearbeitungsschritt also keineswegs lediglich um eine Wiedergabe der Quelle mit anderen Mitteln handelt.

6.4.3. Tabellen

Das Verzeichnis der Abkürzungen der Autorennamen, auf die der Name einer Gehölzart zurückgeht, liegt im Anhang als Tabelle vor, die sich je auf einer Buchseite über zwei Spalten erstreckt.

_images/05_02_tabelle.png

Abbildung 6.2 Faksimileausschnitt mit einer Tabelle; [Jahn1864], Seite 77

Quelltext 6.3 Umsetzung im DTABf / TEI-XML
 <table>
   <head>Erklärungen der Abkürzungen von Autornamen.</head>
   <cb type="start"/>
   <row><cell>Adans.</cell><cell>Adanson.</cell></row>
   <row><cell>Ait.</cell><cell>Aiton.</cell></row>
   […]
   <cb type="end"/>
   <row><cell>Host.</cell><cell>Host.</cell></row>
   <row><cell>Huds.</cell><cell>Hudson.</cell></row>
   […]
 </table>

Innerhalb des Behälterelements table (Tabelle), das zunächst die Überschrift im schon benannten head-Element enthält, sind die Inhalte in row- (Zeilen) beziehungsweise cell-Elementen (Zellen) strukturiert. cb-Elemente werden wie die für Seiten- und Zeilenbeginne als Meilensteine für Spaltenumbrüche verwendet. Warum dem DTABf nach23 die erste und letzte Spalte explizit mit dem type-Attribut markiert werden sollen, obwohl auch diese Eigenschaften sich aus der Dokumentstruktur ergeben, ist unklar.

6.4.4. Schriftauszeichnung

Schriftauszeichnungen werden mit dem Attribut rendition (Darbietung, Wiedergabe) festgehalten, wofür im DTABf ein Satz von Möglichkeiten24 definiert ist. Wenn sich eine Eigenschaft nicht über den ganzen Inhalt einer logischen Texteinheit erstreckt, wird der betroffene Textteil in ein hi-Element gefasst.

_images/05_03_schriftauszeichnung.png

Abbildung 6.3 Faksimileausschnitt mit verschiedenen Schriftauszeichnungen; [Jahn1864], Seite 15

Quelltext 6.4 Umsetzung im DTABf / TEI-XML
 <head rendition="#c">
   <hi rendition="#aq">I.</hi> Familie.
   <hi rendition="#b">
     <hi rendition="#aq">Abietineen.</hi>
     Tannen–Gewächſe.
   </hi>
 </head><lb/>
             […]
 <head rendition="#c">Gattung
   <hi rendition="#aq #b">Pinus.</hi>
   Tanne, Fichte, Kiefer.
 </head>

Während beide Überschriften im Druck zentriert sind (#c), wurden lediglich die lateinischen Ausdrücke in einer Antiqua-Type gesetzt (#aq) – für den ganzen Text ist grundsätzlich eine Fraktur-Type definiert. Im Falle des Gattungsnamen „Pinus“ wird zugleich die Eigenschaft des Fettdrucks (#b) angegeben. Für eine Unterscheidung von Typen mit beziehungsweise ohne Serifen ist keine Auszeichnung vorgesehen. Diese ist in der Quelle insofern relevant, als dass lateinische Gattungsnamen immer ohne Serifen gedruckt sind. Für die weiteren Nutzungen ist dies tragbar, da ja in der Kategorisierung der Textabschnitte die Ebene Gattung bereits festgehalten ist. Überhaupt kann die gerade bei historischen Drucken vorzufindende typographische Vielfalt nicht adäquat umgesetzt werden. Änderungen der Schriftgröße etwa werden relativ zum Kontext als #smaller (kleiner) und #larger (größer) angegeben. Problematisch wäre diese Unzulänglichkeit, wenn eine Quelle nicht zweifelsfrei gedeutet werden kann oder soll, und die Erscheinung der Vorlage gerade deshalb en detail festgehalten werden soll, oder aber die Typographie Teil des künstlerischen Ausdrucks ist.

6.4.5. Korrekturen

Gemäß den Transkriptionsrichtlinien des DTA werden offensichtliche Druckfehler korrigiert, wobei die fehlerhafte Form erhalten bleibt.

_images/05_04_korrekturen.png

Abbildung 6.4 Faksimileausschnitt mit offenkundigem Druckfehler; [Jahn1864], Seite 25

Quelltext 6.5 Umsetzung der Korrektur im DTABf / TEI-XML
 <p>Zu beiden Seiten des Fahrweges, welcher mitten über das Plateau<lb/>
    <choice>
      <sic>ührt</sic>
      <corr>führt</corr>
    </choice> und noch an mehreren Stellen.
 </p><lb/>

Innerhalb des choice-Elementes werden also die vorgefundene und die korrigierte Schreibweise in einem sic respektive einem corr-Element gefasst. Eine explizite Vorgabe zum Umfang des Auszuzeichnenden (etwa Zeichen, Wort, Satz) gibt es nicht. Eine solche Auszeichnung ermöglicht verschiedene Anzeigen und das Auffinden beider Formen.

6.4.6. Andere Normalisierungen

Analog wird mit anderen Normalisierungen, also der Überführung von Informationen in ein anderes, in der Regel standardisiertes oder zeitgenössisches Bezugssystem vorgegangen. Für die Imagination der in der Quelle genannten Längen- und Flächenmaße wie der Gesamtfläche des Friedrichshains anno 1864 ist dies hilfreich:

_images/05_05_normalisierung.png

Abbildung 6.5 Faksimileausschnitt mit einem preußischen Flächenmaß; [Jahn1864], Seite 6

Quelltext 6.6 Umsetzung der Normalisierung im DTABf / TEI-XML
 <choice>
   <orig>167 Morgen 178 □Ruthen 98 □Fuß</orig>
   <reg>87½ ha</reg>
 </choice>

Für Datumsangaben steht aber das date-Element zur Verfügung, das allerdings im DATBf lediglich auf einen Tag nach gregorianischem Kalender verweisen kann, nicht aber auf Zeitspannen oder relative Angaben wie zum Beispiel für „letzte Ostern“.

6.4.7. Anmerkungen verschiedener Art

Für Anmerkungen in der Vorlage (Fußnoten, Marginalien) sowie für editorische wird das note-Element verwendet.

_images/05_06_fußnote.png

Abbildung 6.6 Faksimileausschnitt mit Fußnotenreferenz; [Jahn1864], Seite 1

_images/05_07_fußnote.png

Abbildung 6.7 Faksimileausschnitt mit Fußnote; [Jahn1864], Seite 1

Quelltext 6.7 Umsetzung im DTABf / TEI-XML
 […] Buchen und Eichen<note place="foot" n="*)">Sie ſind, als Ueberreſte
 jener weitgedehnten märkiſchen Waldungen […]</note>[…]

Fußnoten werden also nicht am Ort ihres Erscheinens im Druck, sondern an der Stelle ihrer Referenz, die im Attribute n festgehalten wird, eingefügt. Ausnahmen bilden wiederholt verwendete, für die – wie auch für Endnoten im Allgemeinen – Referenzen verwendet werden.

Quelltext 6.8 Editorische Anmerkung im DTABf / TEI-XML
 <p>A. Blüthen mit Staubgefäßen […]
    <note type="editorial">Im Druck findet sich kein komplementärer
    Abschnitt "B."; […]</note>
 </p>

Da in der Quelle der Sinn des Vorsatz „A.“ sowohl im Einzelnen als auch im Gesamtkontext nicht ersichtlich ist, gleichwohl aber ähnliche Phänomene im Druck immer wieder auftauchen und der Gruppierung von Pflanzen nach phänotypischen Merkmalen dienen, die später bei der Analyse der Taxonomie eine Rolle spielen werden, wird hier im Absatz eine editorische note mit der Spezifizierung type="editorial" eingefügt. In Ansichten oder Drucken, die auf diesem Dokument beruhen werden, kann dies den Lesenden angemessen angezeigt werden. Für umfangreichere kritische Apparate bieten sich jedoch sogenannte Standoff-Annotationen an, bei denen in der Transkriptionen Marker eingefügt werden, während in einem weiteren Dokument die darauf bezogenen Anmerkungen bearbeitet werden. Dass editorischen Anmerkungen, die also nicht zum editorischen Befund gehören sondern der Deutung dienen, im sonst so distinguierten TEI kein eigenes Element zugedacht wurde, kann durchaus verwundern.

6.4.8. Auszeichnung und Verknüpfung von Entitäten

Identische Sachen und Sachverhalte25 werden im Text wiederholt benannt, zuweilen in verschiedenen, möglicherweise nicht eindeutigen Ausdrücken, sind aber auch in anderen Texten und „Wissensbehältern“ wie Datenbanken bekannt. Dazu werden die Vorkommen im Text markiert als name, persName (Personenname) oder placeName (Ortsname) und gegebenenfalls mit einer URL eindeutig bestimmt.

_images/05_08_entitäten.png

Abbildung 6.8 Faksimileausschnitt mit der Nennung eines preußischen Königs; [Jahn1864], Seite 4

Quelltext 6.9 Eindeutige Identifizierung im DTABf / TEI-XML
 in Beziehung zu
 <persName ref="https://www.wikidata.org/wiki/Q33550">Friedrich d. Gr.</persName>
 geſtanden
_images/05_09_entitäten.png

Abbildung 6.9 Faksimileausschnitt mit einer weiteren Nennung desselben; [Jahn1864], Seite 4

Quelltext 6.10 Eindeutige Identifizierung desselben im DTABf / TEI-XML
 König <persName ref="https://www.wikidata.org/wiki/Q33550">Friedrich II.</persName>

Neben den Such- und Analysemöglichkeiten26, die sich daraus auch über mehrere Quellen hinweg ergeben, können daraus auch einfach zusätzliche Register erstellt werden.

6.5. Überlegungen zum Potential des DTABf

Um die Quelle adäquat zu kodieren und dabei der Quelle und der vorgesehenen weiteren Verwendung gerecht zu werden, wurden folgende Änderungen am DTABf-Schema vorgenommen, die mit den TEI-Richtlinien konform sind:

  • Für das p-Element (Absätze) wurde das copyOf-Attribut hinzugefügt, um die Identität des Inhalts hinter respektive unter der Klammerung auf Seite 72 der Holzgewächse festzuhalten, die an dieser Stelle als solche mittels TEI nicht ausgezeichnet werden kann (vgl. Abbildung 6.10), da sich die Klammerung über zwei Überschriften erstreckt.
  • Die für das Vorhaben irrelevanten, erlaubten Werte für das type-Attribut wurden entfernt, die oben genannten für die botanische Taxonomie ergänzt.
_images/05_10_klammerung_über_textabschnitte.png

Abbildung 6.10 Faksimileausschnitt mit einer Klammerung über zwei Textabschnitte; [Jahn1864], Seite 72

Quelltext 6.11 Umsetzung in XML-TEI mittels copyOf-Attribut
 <div type="plant_species">
   <head rendition="#aq">Ae. hybrida Hort.</head><lb/>
   <p copyOf="#aesculus_whileji_description"/>
 </div>
 <div type="plant_species">
   <head rendition="#aq">Ae. Whitleji Hort.</head><lb/>
   <p xml:id="aesculus_whileji_description">
     Var. vom <hi rendition="#aq">Rubicunda.</hi> Roſenroth.
   </p><lb/>
 </div>

Demnach ist das DTABf mit wenigen Änderungen27 für die Kodierung der Quelle und die anvisierten Aufgabenstellungen geeignet. Dass im Schema ein so generelles Attribut wie copyOf im Gegensatz zu TEI entfernt wurde, ist im Grunde nicht nötig, um ein leicht verwendbares Format zu definieren. Ebenso die bereits genannte Beschränkung Datumsangaben anzugeben.

Für eine breite Verwendung in Forschungen ist ein kontrolliertes Vokabular28 der erlauben Werte des type-Attribut nicht gangbar. Zu sehr unterscheiden sich Quellen und Fragestellungen, um eine adäquate Menge zu definieren. Auch der formulierte „Bottom-Up“-Ansatz29, also eine Einigung innerhalb der Community anlässlich einer in der Anwendung erkannten Unzulänglichkeit, kann diese Diversität nicht auflösen. Erfahrungsgemäß neigen solche am Bedarf wachsenden Vokabulare auch schon mittelfristig zu Inkonsistenzen, da etwa Abstraktionen nicht ausreichend antizipiert werden oder sich als uneindeutig herausstellen.30 Eine generelle Öffnung würde auch die Fortschreibung eines empfohlenen, unverbindlichen Vokabulars (zum Beispiel für die üblichen Verzeichnisse in wissenschaftlichen Quellen) durch die Community nicht ausschließen.

Zu bedenken gilt dabei auch, dass das DTA-Projekt ausgelaufen ist und also keine hauptamtlichen personellen Ressourcen zur Koordinierung verfügbar sind. So sind von seit März 2017 51 öffentlich aufgeworfenen Problemen und Änderungsvorschlägen nach 16 Monaten zwei geklärt worden.31 Zumal für die Findung und Umsetzung konsensualer Lösungen durch die Community kein Prozess formalisiert ist und ein solcher in der Regel mit zeitlichen Erfordernissen von Projekten kollidieren würde.

Kritisch ist auch die technische Dokumentation des Schemas32 zu sehen, die bezüglich der Genese allenfalls für ausgewiesene XML-ExpertInnen nachvollziehbar sein mag. Leider bricht in dieser Stelle die sonst gegebene Zugänglichkeit für NutzerInnen. Wie eine notwendige Anpassung durchzuführen wäre, wird nicht erläutert. Für eine Nutzung als tatsächliches Basisformat wäre dies notwendig.

Weitere Entwicklungsmöglichkeiten bieten sich im Hinblick auf die Behebung von Fehlern und der Umsetzung richtiger, aber nicht konsequent umgesetzter Zielstellungen. So werden gänzlich unnötig die genannten Meilenstein-Elemente als Abschluss der jeweiligen Einheiten betrachtet, nicht als deren Beginn wie in TEI. Um dem eigenen Anspruch, für gleiche Phänomene eine eindeutige Kodierung zu verwenden33, gerecht zu werden, müssten die Elemente persName und placeName zugunsten einer Nutzung des name-Elements34 mit entsprechenden Werten für das type-Attribut aufgegeben werden. Für eine konsistente Verarbeitung der Daten in einem ‚lebendigen‘35, also fortgeschriebenen Formats, wäre eine Versionierung des Schemas sinnvoll.

Ein Überwinden der kurzsichtigen DFG-Förderpolitik wäre also wünschenswert, um zu verhindern, dass dieses für eine grundlegende Erfassung historischer Quellen geeignete und ausgesprochen gut dokumentierte Format an einer Stagnation in einer sich weiter entwicklenden Forschungslandschaft, in der Methoden genutzt werden, die in wiederum äußerst dynamischen technischen Systemen eingebettet sind, als langfristige Lösung scheitert. Dies würde auch das Gelingen einer langfristigen Nutzung der kodierten Artefakte in und mit zeitgemäßen Verarbeitungssystemen sicherstellen, wie sie die DFG fordert.

Fußnoten

[1]In den letzten Jahren sind große Fortschritte in den Bereichen Named Entity Recogintion (NER), dem automatisierten von Worten oder Wortgruppen zu dem Verarbeitungssystem bekannten Entitäten, und dem Topic Modelling, der Kategorisierung von Texten, wie auch dem maschinellen Lernen im Allgemeinen gemacht worden. Für die Verarbeitung großer Datenmengen können solche Methoden trotz ihrer Unzulänglichkeiten fruchtbar gemacht werden. Einen Eindruck der Funktionalität von NER lässt bei der Verwendung dieser Webanwendung bekommen: https://www.dbpedia-spotlight.org/demo/
[2]aus [Jahn1864], S. 13
[3][DFG2016], Abschnitt 3.4.3
[4][TEIC2007], Abschnitt „Text Body“
[5]Obwohl die URI, die in der Bezeichnung des Namensraums verwendet wird, auf einen Token endet, der eine Versionsnummer zu sein scheint, wird dieser seit der Verwendung von XML als Basis mit der Ausgabe P4 verwendet.
[6]Nun ließe sich im Sinne einer reinen Lehre der segregation of concerns, also der Trennung von Sachverhalten, argumentieren, dass die Quelle unmittelbar beschreibende und die Quelle deutende Daten in jeweils dedizierten Dokumenten abzulegen seien. Dies würde aber notwendig den Aufwand der Erfassung, sowie den bei Änderungen maßgeblich erhöhen und wäre auch deutlich fehleranfälliger, da die Bezüge zwischen den Dokumenten aufrecht erhalten werden müssen. Unter Umständen kann so ein Vorgehen gerechtfertigt sein.
[7][DFG2016], Abschnitt 3.4.3, vgl. http://www.tei-c.org/Vault/P5/3.2.0/doc/tei-p5-doc/en/html/USE.html#MD bezüglich der Umsetzung
[8]vgl. http://www.tei-c.org/Guidelines/Customization/odds.xml
[9]Zum Beispiel die Webanwendung Roma.
[10]Einen Überblick didaktischer Ressourcen zum Thema bietet eine Webseite der TEI (http://www.tei-c.org/Support/Learn/), eine Diskussion zur Didaktik [Dee2014]. Für eine zeitgemäße, englischsprachige Einführung siehe [Burnard2014], in deutscher Sprache ist lediglich eine zwanzig Jahre alte einführende Publikation bekannt ([Jannidis1997]).
[11]Vgl. [DFG2015], Seite 24. Dem Vernehmen nach wird dies auch in die Praxisregeln „Digitalisierung“ der DFG aufgenommen werden.
[12]Der Kopfbereich dient der Angabe der Metadaten zu Quelle und Transkription. Das Verhältnis ist wohl Ausdruck der den Metadaten zugemessenen Relevanz. Siehe die Übersichten http://www.deutschestextarchiv.de/doku/basisformat/uebersichtHeader.html und http://www.deutschestextarchiv.de/doku/basisformat/uebersichtText.html
[13]vgl. http://www.deutschestextarchiv.de/doku/ueberblick und http://www.deutschestextarchiv.de/list
[14]Zur Etymologie vgl. den Eintrag beim DTA-Schwesterprojekt „Digitales Wörterbuch der Deutschen Sprache“: https://www.dwds.de/wb/Basis#et-1. Beachtenswert sind dort bei der Gelegenheit auch die Verweise in Referenzkorpora wie dem DTA.
[15]http://www.deutschestextarchiv.de/doku/basisformat/index.html
[16]http://www.deutschestextarchiv.de/doku/basisformat/schema.html
[17]https://www.oxygenxml.com/
[18]siehe https://die-holzgewächse-des-friedrichshains.de/data/documents/Transkribus_export.xml
[19]Daher auch die eingangs erwähnte Unterscheidung von l und lb.
[20]Soweit folgt dies den Kategorien des internationalen Code der Botanischen Nomenklatur nach [Zander2008], S. 13.
[21]http://www.deutschestextarchiv.de/doku/basisformat/div.html
[22][Jahn1864], S. III. Wobei die Formulierung die Grundannahmen impliziert, dass es eine Ordnung in der Natur gäbe und der Mensch in der Lage sei, diese zu erkennen. Der Autor operiert also ganz im Geiste des sich durchsetzenden naturwissenschaftlichen Blicks der Moderne auf die Welt und unterschlägt dabei, dass er selbst einen Beitrag zur Durchsetzung dieser Sicht und Etablierung einer möglichen Ordnung leistet. Wenn jetzt also eine informatische Baumstruktur genutzt wird, um das ursprünglich vom Autor „im natürlichen Systeme“ (ebenda) – die meisten Pflanzen werden ohnehin aus Kultivierungen gestammt sein – Beschriebene zu diskretisieren, kann das als Beleg dafür gelten, dass sich diese Perspektive bis heute hält und nur weiter verschärft.
[23]http://www.deutschestextarchiv.de/doku/basisformat/spalte.html
[24]http://www.deutschestextarchiv.de/doku/basisformat/typogrAllg.html
[25]Beide Begriffe sind hier im Sinne Wittgensteins Tractatus‘ gemeint ([Wittgenstein2006]).
[26]Dazu mehr in der Beschreibung der Webanwendung.
[27]Diese sind konkret im Anhang Änderungen am DTABf dokumentiert, der aus Platzgründen nur in der HTML-Fassung verfügbar ist.
[28]vgl. [HaafGeykenWiegand2015], Absatz 8
[29]vgl. ebenda, Absatz 9
[30]Zum Beispiel sind die Kategorien „Rezept“ und „Tagebucheintrag“ aus dem DATBf in den Kontexten Koch- und Tagebuch im Grunde identisch in ihrer Funktion, in den „Holzgewächsen“ entsprechen dem am ehesten die Pflanzen. Denkt mensch im weiteren an Architekturführer, Tonträgerverzeichnisse u.s.w. u.s.f. wird die Unbewältigbarkeit oder zumindest Unverhältnismäßigkeit der Fortschreibung des Vokabulars klar. Ein generisches „item“ beispielsweise wäre für alle Fälle aber sehr geeignet. Gleichzeitig muss aber auch eine nötige Differenziert etwa für ein denkbares Tagebuch einer Maître de cuisine möglich bleiben.
[31]vgl. https://github.com/deutschestextarchiv/dtabf/issues und https://github.com/deutschestextarchiv/dtabf/pulls
[32]http://www.deutschestextarchiv.de/doku/basisformat/schema.html
[33]vgl. [HaafGeykenWiegand2015], Absatz 3
[34]Dass Sachen und Sachverhalte nicht notwendig durch Namen bezeichnet werden, also etwa ein Element entity den adäquateren Namen für diesen Zweck trüge, ist ein Mangel der TEI-Definition.
[35]vgl. [HaafGeykenWiegand2015], Absatz 62