6. Die Auszeichnung des Volltextes¶
6.1. Überblick¶
Nun liegt also eine in Textabschnitte und Zeilen gruppierte Zeichenfolge vor, die als Unicode kodiert die im Druck vorliegenden Zeichen repräsentiert. Dieser Repräsentation mangelt es aber an den typographischen Unterschieden in der Quelle, die über das Zusammenfügen der Zeichen zu Worten, Wortgruppen und Sätzen hinaus eine Bedeutung transportieren, zum Beispiel die Relevanz, die der Autor der im Sperrdruck gesetzten Aussage „Giftig!“ zueignet. Somit hat die Transkription im Vergleich zur Vorlage also Inhalte verloren. Hinzu kommt, dass Zeichenfolgen weder eine eindeutige noch eine statische Bedeutung tragen. Während Menschen ihr Interpretationsverhalten diesem Umstand Rechnung tragend häufig durchaus adaptieren können, geht Maschinen, die im Weiteren für eine Neu-Repräsentation und Insverhältnissetzen von Informationen dienlich gemacht werden sollen, diese Fähigkeit weitestgehend ab.1 Der Text muss also mit den verlorenen typographischen Eigenschaften ausgezeichnet/annotiert werden.
Das Auszeichnen/Annotieren dient auch der Ausweitung der Informationen eines Textes, die für menschliche Lesende vor allem aufgrund kulturellen Wissens und des Erkennens von Mustern ersichtlich sind. Als Beispiel sei diese reine Wiedergabe von Schriftzeichen gegeben2:
10) Der Begräbnisplatz
für die am 18/19. März 1848 Gefallenen aus dem Bürgerstande.
[…] Er enthält 10 Ruthen im Quadrat und ist von einer hohen Einfassung
von Caragena arboresceno (Erbsenstrauch) eingehegt.
Unter anderem diese Informationen sind enthalten oder zum Verständnis notwendig ohne explizit benannt zu werden:
- Es handelt sich um einen Textabschnitt, der ein in einer Überschrift benanntes Thema erörtert. Die Überschrift ist per Konvention als solche durch den Leerraum zum folgenden und die Einrückung erkennbar.
- Der Textabschnitt ist einer von mindestens zehn gleichartigen. In diesem Fall ist ihnen gleich, einen Teilraum des Friedrichshains zu beschreiben.
- Es werden die Opfer eines Aufstandes zur Überwindung der Adelsherrschaft und zur Durchsetzung weiterer Emanzipationsbestrebungen benannt.
- Dieses Ereignis wird durch eine Angabe gemäß dem gregorianischen Kalender datiert. Dabei konjugiert der Schrägstrich als ‚und‘, nicht als ‚oder‘.
- Der beschriebene Platz wird in einer zeitgenössischen, ortsspezifischen Bezugsgröße hinsichtlich seiner Ausdehnung qualifiziert.
- ‚Caragana‘ bezeichnet in Bezug auf die botanische Taxonomierung eine Gattung, ‚arboresceno‘ eine Art.
- ‚Erbsenstrauch‘ ist ein deutschsprachiges Synonym für ‚Caragena arboresceno‘.
Als Format für solche Auszeichnungen / Annotationen schreibt die DFG im Grundsatz XML-TEI vor, und auch für die Langzeitarchivierung von Transkriptionen.3
6.2. Die Text Encoding Initiative¶
Die Text Encoding Initiative (TEI) bezeichnet ein Konsortium sowie die von diesem herausgegebenen Richtlinien zur
Auszeichnung von Texten mittels XML. Das durch Letzteres definierte Datenformat wird ebenso als TEI oder auch
XML-TEI bezeichnet. Die Richtlinien sollen für verschiedenste Quellen und Vorhaben verwendbar sein, so dass in der
Ausgabe P5 569 Elemente und 256 Attribute im Namensraum http://www.tei-c.org/ns/1.0
4 zur Verfügung stehen.
Eine Diskussion der verschiedenen Einsatzbereiche würde hier den Rahmen sprengen, für einen Gesamtüberblick sei auf das
Inhaltsverzeichnis der Richtlinien5 verwiesen. Das Spektrum der Möglichkeiten reicht von der Beschreibung einzelner
Glyphen bis zur Deklaration eigener Taxonomien für Klassifizierungen von Textinhalten. Die meisten
Auszeichnungsmöglichkeiten dienen bereits der Kategorisierung und Annotation von Inhalten in abstrakteren
Kategorien, als denn der Beschreibung von Merkmalen des Layouts einer Quelle.6 Identische Sachverhalte können
mitunter auf verschiedene Weise ausgezeichnet werden, zum Beispiel der Umfang einer Textzeile:
<l>In lyrischen Werken werden Textzeilen vom Element "l" umschlossen.</l>
<lb />In anderen Texten markiert ein leeres Element "lb" den Beginn einer Zeile.
Für konkrete Projekte schlagen die DFG-Richtlinien vor, spezifische Schemata der zu verwendenden Elemente und Attribute zu erstellen7. Zum einen sollte aus der Vielzahl der Möglichkeiten eine Reduktion vorgenommen werden, oder auch – so denn die vorliegenden Phänomene eines Textes nicht mit dem Vorliegenden hinreichend annotiert werden können – Erweiterungen erstellt werden. Angesichts der geradezu überbordenden Optionen ist dies spätestens bei der Zusammenarbeit mehrerer Forschenden und als Bezugsnorm für spätere Verarbeitungen auch praktisch notwendig. Zu diesem Zweck hat das TEI Konsortium eigens das Deskriptions-Schema ODD („One Document Does it all“)8 , das wiederum in den TEI-Richtlinien definierte Elemente und Attribute verwendet, entwickelt. Des weiteren dazugehörige Werkzeuge zur Generierung von Schemata aus demnach formulierten Dokumenten.9
Ohne, dass hier das TEI-Ökosystem detaillierter betrachtet wurde, sollte deutlich geworden sein, dass der Aufwand und das notwendige Spezialwissen, für ein kleines Vorhaben wie dieses ein geeignetes Schema zu entwickeln, eher ein Hindernis darstellen und als immer wiederkehrender Vorgang bei einer Zunahme von digitalen Editionsvorhaben in der Breite praktisch nicht zu rechtfertigen ist.10
6.3. Das Deutsche Textarchiv Basisformat¶
Zielführender ist in dieser Hinsicht der Hinweis der DFG, das TEI-basierte „Deutsche Textarchiv Basisformat“ (DTABf) für Sprachkorpora zu verwenden11. Dieser auf 113 Elemente für den Textbereich und 56 für den Kopfbereich12 reduzierte und in wenigen Teilen erweiterte Standard wurde im Rahmen des DFG-geförderten Projektes „Deutsches Textarchiv“ (DTA) entwickelt, einem in erster Linie für die linguistische Forschung erstellten Grundlagenkorpus, der heuer 3.275 neuhochdeutsche Texte verschiedener Textsorten und -genres aus dem 17. bis zum 19. Jahrhundert umfasst.13 Die Bestimmung als Basis im Namen des Formats ist allerdings – soviel sei schon vorweg genommen – irreführend14; in seiner jetzigen Form erfüllt das Format die Anforderungen, die sich konkret aus denen an dieses Projekt (das DTA) ergeben.
Aufgrund der Verwendung für eine breite Repräsentanz gedruckter, deutschsprachiger Texte ist anzunehmen, dass dieser Standard für die Auszeichnung des Transkriptes der Holzgewächse geeignet ist, dessen Grundlage in den Sprach- und Zeitraum fällt, dem das DTA zugedacht ist. Zudem spricht die deutschsprachige, mit vielen, praktischen Beispielen gespickte Dokumentation des Formats15, die weitestgehend intuitiv genug strukturiert ist, um nach relativ kurzer Einarbeitungszeit Hinweise zur Behandlung konkreter Phänomene aufzufinden, für dessen Verwendung. Komplementär sind dazu Transkriptionsrichtlinien formuliert, die eine grundlegende Orientierung bei der Arbeit geben. Außerdem können je ein Schema im RelaxNG- und Schematron-Format bezogen werden16 und im XML-Editor Oxygen17 bei der Bearbeitung eingebunden werden, wodurch bei der Eingabe von Elementen, Attributen und Attributwerten eine Autovervollständigung verfügbar ist sowie eine ständige Konformitätsprüfung vollzogen wird und fehlerhafte Stellen im Dokument gegebenenfalls hervorgehoben werden.
Das Ergebnis der Transkription kann über die URL https://die-holzgewächse-des-friedrichshains.de/data/documents/buch.xml bezogen werden.
6.4. Praktische Beispiele und Methodenreflektion¶
Das im vorigen Kapitel vorgestellte Transkribus ermöglicht auch einen Export
der damit erarbeiteten Transkription in das TEI-Format. Entsprechend der beschriebenen, vorgenommenen Strukturierung
sind innerhalb des Textkörpers nun lediglich die Elemente pb
(Seitenbeginn), p
(Textabsatz) und lb
(Zeilenbeginn) vorhanden.18
Die folgenden Beispiele sollen keinen Überblick über die Struktur von TEI oder den Gesamtumfang des DTABf geben – beides leistet die Dokumentation des letzteren hervorragend, sondern möglichst diverse Schlaglichter auf die in den „Holzgewächsen“ vorgenommenen Auszeichnungen werfen, Bemerkenswertes diskutieren und so einen lückenhaften aber hinreichenden Eindruck des Formates vermitteln.
6.4.1. Seitenzahlen und Kolumnentitel¶
Die regelmäßigen Seitenzahlen und Kolumnentitel wurden mit einem Algorithmus in die Zielstruktur transformiert.

Abbildung 6.1 Faksimileausschnitt mit Seitenzahl und Kolumnentitel; [Jahn1864], Seite IV
<pb facs="#f05" n="IV"/>
<fw type="header" place="top">Vorwort.</fw><lb/>
Im pb
-Element sind eine Referenz auf die zugrunde liegende Faksimile aus den fortlaufend nummerierten mit dem
Attribut facs
und die im Druck angegebene Seitenzahl als Attribut n
angegeben. Das fw
-Element (für
seitenbezogene Inhalte) wird als type="header"
, also Kolumnentitel, der oben (place="top"
) erscheint,
spezifiziert. Im Gegensatz zum pb
wird der Textinhalt in diesem Fall als Elementtext gefasst, da er weitergehende
Auszeichnungen enthalten könnte.
Dass dies im Falle der Seitenzahl über ein Attribut des pb
-Elements geschieht, verfolgt vermutlich die Absicht, eine
fehlerhafte Verwendung des Elementtextes mit dem Seiteninhalt zu vermeiden. Den Hintergrund hierzu bildet die Einsicht,
dass Druckseiten keine logischen, den Text strukturierenden Einheiten sind, sondern physische, medienbezogene. Deshalb
wird das pb
- wie auch das lb
-Element als milestone-Elemente betrachtet, die keinen Text beinhalten und
lediglich die Stelle des Auftretens dieses physischen Phänomens markieren.19 Somit kommt es nicht zur Überlappung
mit Auszeichnungen logischer Text-Einheiten wie Absätzen und Kapiteln, die aufgrund der Baumstruktur von XML unmöglich
ausgedrückt werden können.
6.4.2. Textabschnitte und Überschriften¶
Textabschnitte werden hierarchisch in Kaskaden von div
-Elementen gekapselt, der ganze Textkörper besteht aus einer
Reihe solcher Elemente, die wiederum ebenso Unterabschnitte enthalten. Diese beginnen in der Regel mit einer
Überschrift, die in einem head
-Element gefasst wird.
<text>[…]<body>
<div type="preface">
<head>Vorwort.</head>
…
</div>
<div type="chapter">
<head>Geſchichtliche und ſtatiſtiſche Notizen[…]</head>
…
</div>
<div type="chapter">
<head>Verzeichniß der Holzgewächſe des Friedrichshains.</head>
<div type="plant_class">
<head>I. Klaſſe. Gymnospermen. Nacktſamige Holzpflanzen.</head>
<p>[…]</p>
[…]
<div type="plant_family">
<head>I. Familie. Abietineen. Tannen–Gewächſe.</head>
[…]
</div>
</div>
</div>
</body>[…]</text>
In den type
-Attributen werden die Abschnitte kategorisiert, die Kategorien preface (Vorwort) und chapter
(Kapitel) entsprechen den Vorgaben des DTABf, plant_class und plant_family wurden selbst festgelegt, um das
Verzeichnis der Pflanzen später sinnvoll verarbeiten zu können, denn eine Korrelation zwischen Hierarchieebene und
taxonomischer Kategorie gibt es nicht, während im Gegensatz zu einer heuristischen Kategorisierung der Aufwand einer
manuellen klar abzuschätzen und überschaubar ist. Des weiteren wurden für das Vorhaben die Kategorien plant_genus
(Gattung), plant_subgenus (Untergattung), plant_species (Art, es werden im Verzeichnis aber auf gleicher Ebene auch
Varietäten ohne eine übergeordnete Art genannt)20 und plant_phenogroup (für vom Autoren an verschiedenen Stellen
vorgenommene Gruppierungen, die vermutlich das Auffinden im Buch erleichtern sollten, aber immer auch für das Gruppierte
beschreibend sind) verwendet. Diese Ergänzungen werden später noch einmal zum Potential des DTABf diskutiert. Auf eine
Durchnummerierung der Hierarchieebenen mit einem n
-Attribut, die nach DTABf „in der Regel“21 vorgenommen werden,
wurde verzichtet, da dies nun mal eine transitive Eigenschaft aus der Struktur ist und eine redundante Annotation
allenfalls eine Fläche für Inkonsistenzen böte.
Mit dieser Hierarchisierung ändert sich die Struktur des Dokuments deutlich und erhält seine erste wesentliche semantische Anreicherung. Aus dieser lässt sich zum Einen ein Inhaltsverzeichnis ableiten, das es im Druck nicht gibt. Zum Anderen – und das ist zur Reflektion auf das editionswissenschaftliche Paradigma der Unterscheidung von Befund und Deutung relevant – wird somit bereits die Quelle gedeutet. Nämlich insofern, dass die vorgefundenen Formulierungen und ihre typographischen Eigenschaften in eine eindeutige Ordnung systematisiert werden. Dass das Verzeichnis der Pflanzen taxonomiert ist, ist offenkundig, wird vom Autoren jedoch lediglich auf dem Titelblatt und im Vorwort als „nach natürlichen Familien geordnet“22 angegeben. Deutlich wird dieser Umstand vor allem auf den als unteren Ebenen identifizierten. Dort kommen keine klaren Bezeichnungen wie „Klasse“ oder „Familie“ vor. Pflanzenarten und Varietäten werden in gleicher Weise dargestellt, vom Autor wurden unregelmäßig – im Druck als Zwischenüberschriften erscheinende – Kategorien eingefügt, scheinbar um Familien, Gattungen oder Arten mit gemeinsamen phänotypischen Eigenschaften zu gruppieren. Das scheint vielleicht trivial, doch es muss festgestellt werden, dass dieser eindeutigen Strukturierung weiter die Unsicherheit zugrunde liegt, ob das nun Erfasste mit dem vom Autoren Gemeinte identisch ist und bereits grundlegend für eine spätere Verwendung der Taxonomie im Werk ist, wenn nicht gar diese im Wesentlichen vorwegnimmt und es sich in diesem Bearbeitungsschritt also keineswegs lediglich um eine Wiedergabe der Quelle mit anderen Mitteln handelt.
6.4.3. Tabellen¶
Das Verzeichnis der Abkürzungen der Autorennamen, auf die der Name einer Gehölzart zurückgeht, liegt im Anhang als Tabelle vor, die sich je auf einer Buchseite über zwei Spalten erstreckt.

Abbildung 6.2 Faksimileausschnitt mit einer Tabelle; [Jahn1864], Seite 77
<table>
<head>Erklärungen der Abkürzungen von Autornamen.</head>
<cb type="start"/>
<row><cell>Adans.</cell><cell>Adanson.</cell></row>
<row><cell>Ait.</cell><cell>Aiton.</cell></row>
[…]
<cb type="end"/>
<row><cell>Host.</cell><cell>Host.</cell></row>
<row><cell>Huds.</cell><cell>Hudson.</cell></row>
[…]
</table>
Innerhalb des Behälterelements table
(Tabelle), das zunächst die Überschrift im schon benannten head
-Element
enthält, sind die Inhalte in row
- (Zeilen) beziehungsweise cell
-Elementen (Zellen) strukturiert.
cb
-Elemente werden wie die für Seiten- und Zeilenbeginne als Meilensteine für Spaltenumbrüche verwendet. Warum dem
DTABf nach23 die erste und letzte Spalte explizit mit dem type
-Attribut markiert werden sollen, obwohl auch
diese Eigenschaften sich aus der Dokumentstruktur ergeben, ist unklar.
6.4.4. Schriftauszeichnung¶
Schriftauszeichnungen werden mit dem Attribut rendition
(Darbietung, Wiedergabe) festgehalten, wofür im DTABf ein
Satz von Möglichkeiten24 definiert ist. Wenn sich eine Eigenschaft nicht über den ganzen Inhalt einer logischen
Texteinheit erstreckt, wird der betroffene Textteil in ein hi
-Element gefasst.

Abbildung 6.3 Faksimileausschnitt mit verschiedenen Schriftauszeichnungen; [Jahn1864], Seite 15
<head rendition="#c">
<hi rendition="#aq">I.</hi> Familie.
<hi rendition="#b">
<hi rendition="#aq">Abietineen.</hi>
Tannen–Gewächſe.
</hi>
</head><lb/>
[…]
<head rendition="#c">Gattung
<hi rendition="#aq #b">Pinus.</hi>
Tanne, Fichte, Kiefer.
</head>
Während beide Überschriften im Druck zentriert sind (#c
), wurden lediglich die lateinischen Ausdrücke in einer
Antiqua-Type gesetzt (#aq
) – für den ganzen Text ist grundsätzlich eine Fraktur-Type definiert. Im Falle des
Gattungsnamen „Pinus“ wird zugleich die Eigenschaft des Fettdrucks (#b
) angegeben. Für eine Unterscheidung von
Typen mit beziehungsweise ohne Serifen ist keine Auszeichnung vorgesehen. Diese ist in der Quelle insofern relevant, als
dass lateinische Gattungsnamen immer ohne Serifen gedruckt sind. Für die weiteren Nutzungen ist dies tragbar, da ja in
der Kategorisierung der Textabschnitte die Ebene Gattung bereits festgehalten ist. Überhaupt kann die gerade bei
historischen Drucken vorzufindende typographische Vielfalt nicht adäquat umgesetzt werden. Änderungen der Schriftgröße
etwa werden relativ zum Kontext als #smaller
(kleiner) und #larger
(größer) angegeben. Problematisch wäre diese
Unzulänglichkeit, wenn eine Quelle nicht zweifelsfrei gedeutet werden kann oder soll, und die Erscheinung der Vorlage
gerade deshalb en detail festgehalten werden soll, oder aber die Typographie Teil des künstlerischen Ausdrucks ist.
6.4.5. Korrekturen¶
Gemäß den Transkriptionsrichtlinien des DTA werden offensichtliche Druckfehler korrigiert, wobei die fehlerhafte Form erhalten bleibt.

Abbildung 6.4 Faksimileausschnitt mit offenkundigem Druckfehler; [Jahn1864], Seite 25
<p>Zu beiden Seiten des Fahrweges, welcher mitten über das Plateau<lb/>
<choice>
<sic>ührt</sic>
<corr>führt</corr>
</choice> und noch an mehreren Stellen.
</p><lb/>
Innerhalb des choice
-Elementes werden also die vorgefundene und die korrigierte Schreibweise in einem sic
respektive einem corr
-Element gefasst. Eine explizite Vorgabe zum Umfang des Auszuzeichnenden (etwa Zeichen, Wort,
Satz) gibt es nicht. Eine solche Auszeichnung ermöglicht verschiedene Anzeigen und das Auffinden beider Formen.
6.4.6. Andere Normalisierungen¶
Analog wird mit anderen Normalisierungen, also der Überführung von Informationen in ein anderes, in der Regel standardisiertes oder zeitgenössisches Bezugssystem vorgegangen. Für die Imagination der in der Quelle genannten Längen- und Flächenmaße wie der Gesamtfläche des Friedrichshains anno 1864 ist dies hilfreich:

Abbildung 6.5 Faksimileausschnitt mit einem preußischen Flächenmaß; [Jahn1864], Seite 6
<choice>
<orig>167 Morgen 178 □Ruthen 98 □Fuß</orig>
<reg>87½ ha</reg>
</choice>
Für Datumsangaben steht aber das date
-Element zur Verfügung, das allerdings im DATBf lediglich auf einen Tag nach
gregorianischem Kalender verweisen kann, nicht aber auf Zeitspannen oder relative Angaben wie zum Beispiel für „letzte
Ostern“.
6.4.7. Anmerkungen verschiedener Art¶
Für Anmerkungen in der Vorlage (Fußnoten, Marginalien) sowie für editorische wird das note
-Element verwendet.

Abbildung 6.6 Faksimileausschnitt mit Fußnotenreferenz; [Jahn1864], Seite 1

Abbildung 6.7 Faksimileausschnitt mit Fußnote; [Jahn1864], Seite 1
[…] Buchen und Eichen<note place="foot" n="*)">Sie ſind, als Ueberreſte
jener weitgedehnten märkiſchen Waldungen […]</note>[…]
Fußnoten werden also nicht am Ort ihres Erscheinens im Druck, sondern an der Stelle ihrer Referenz, die im Attribute
n
festgehalten wird, eingefügt. Ausnahmen bilden wiederholt verwendete, für die – wie auch für Endnoten im
Allgemeinen – Referenzen verwendet werden.
<p>A. Blüthen mit Staubgefäßen […]
<note type="editorial">Im Druck findet sich kein komplementärer
Abschnitt "B."; […]</note>
</p>
Da in der Quelle der Sinn des Vorsatz „A.“ sowohl im Einzelnen als auch im Gesamtkontext nicht ersichtlich ist,
gleichwohl aber ähnliche Phänomene im Druck immer wieder auftauchen und der Gruppierung von Pflanzen nach phänotypischen
Merkmalen dienen, die später bei der Analyse der Taxonomie eine Rolle spielen werden, wird hier im Absatz eine
editorische note
mit der Spezifizierung type="editorial"
eingefügt. In Ansichten oder Drucken, die auf diesem
Dokument beruhen werden, kann dies den Lesenden angemessen angezeigt werden.
Für umfangreichere kritische Apparate bieten sich jedoch sogenannte Standoff-Annotationen an, bei denen in der
Transkriptionen Marker eingefügt werden, während in einem weiteren Dokument die darauf bezogenen Anmerkungen bearbeitet
werden.
Dass editorischen Anmerkungen, die also nicht zum editorischen Befund gehören sondern der Deutung dienen, im sonst so
distinguierten TEI kein eigenes Element zugedacht wurde, kann durchaus verwundern.
6.4.8. Auszeichnung und Verknüpfung von Entitäten¶
Identische Sachen und Sachverhalte25 werden im Text wiederholt benannt, zuweilen in verschiedenen, möglicherweise
nicht eindeutigen Ausdrücken, sind aber auch in anderen Texten und „Wissensbehältern“ wie Datenbanken bekannt. Dazu
werden die Vorkommen im Text markiert als name
, persName
(Personenname) oder placeName
(Ortsname) und
gegebenenfalls mit einer URL eindeutig bestimmt.

Abbildung 6.8 Faksimileausschnitt mit der Nennung eines preußischen Königs; [Jahn1864], Seite 4
in Beziehung zu
<persName ref="https://www.wikidata.org/wiki/Q33550">Friedrich d. Gr.</persName>
geſtanden

Abbildung 6.9 Faksimileausschnitt mit einer weiteren Nennung desselben; [Jahn1864], Seite 4
König <persName ref="https://www.wikidata.org/wiki/Q33550">Friedrich II.</persName>
Neben den Such- und Analysemöglichkeiten26, die sich daraus auch über mehrere Quellen hinweg ergeben, können daraus auch einfach zusätzliche Register erstellt werden.
6.5. Überlegungen zum Potential des DTABf¶
Um die Quelle adäquat zu kodieren und dabei der Quelle und der vorgesehenen weiteren Verwendung gerecht zu werden, wurden folgende Änderungen am DTABf-Schema vorgenommen, die mit den TEI-Richtlinien konform sind:
- Für das
p
-Element (Absätze) wurde dascopyOf
-Attribut hinzugefügt, um die Identität des Inhalts hinter respektive unter der Klammerung auf Seite 72 der Holzgewächse festzuhalten, die an dieser Stelle als solche mittels TEI nicht ausgezeichnet werden kann (vgl. Abbildung 6.10), da sich die Klammerung über zwei Überschriften erstreckt. - Die für das Vorhaben irrelevanten, erlaubten Werte für das
type
-Attribut wurden entfernt, die oben genannten für die botanische Taxonomie ergänzt.

Abbildung 6.10 Faksimileausschnitt mit einer Klammerung über zwei Textabschnitte; [Jahn1864], Seite 72
<div type="plant_species">
<head rendition="#aq">Ae. hybrida Hort.</head><lb/>
<p copyOf="#aesculus_whileji_description"/>
</div>
<div type="plant_species">
<head rendition="#aq">Ae. Whitleji Hort.</head><lb/>
<p xml:id="aesculus_whileji_description">
Var. vom <hi rendition="#aq">Rubicunda.</hi> Roſenroth.
</p><lb/>
</div>
Demnach ist das DTABf mit wenigen Änderungen27 für die Kodierung der Quelle und die anvisierten Aufgabenstellungen
geeignet. Dass im Schema ein so generelles Attribut wie copyOf
im Gegensatz zu TEI entfernt wurde, ist im Grunde
nicht nötig, um ein leicht verwendbares Format zu definieren. Ebenso die bereits genannte Beschränkung Datumsangaben
anzugeben.
Für eine breite Verwendung in Forschungen ist ein kontrolliertes Vokabular28 der erlauben Werte des
type
-Attribut nicht gangbar. Zu sehr unterscheiden sich Quellen und Fragestellungen, um eine adäquate Menge zu
definieren. Auch der formulierte „Bottom-Up“-Ansatz29, also eine Einigung innerhalb der Community anlässlich einer
in der Anwendung erkannten Unzulänglichkeit, kann diese Diversität nicht auflösen. Erfahrungsgemäß neigen solche am
Bedarf wachsenden Vokabulare auch schon mittelfristig zu Inkonsistenzen, da etwa Abstraktionen nicht ausreichend
antizipiert werden oder sich als uneindeutig herausstellen.30 Eine generelle Öffnung würde auch die Fortschreibung
eines empfohlenen, unverbindlichen Vokabulars (zum Beispiel für die üblichen Verzeichnisse in wissenschaftlichen
Quellen) durch die Community nicht ausschließen.
Zu bedenken gilt dabei auch, dass das DTA-Projekt ausgelaufen ist und also keine hauptamtlichen personellen Ressourcen zur Koordinierung verfügbar sind. So sind von seit März 2017 51 öffentlich aufgeworfenen Problemen und Änderungsvorschlägen nach 16 Monaten zwei geklärt worden.31 Zumal für die Findung und Umsetzung konsensualer Lösungen durch die Community kein Prozess formalisiert ist und ein solcher in der Regel mit zeitlichen Erfordernissen von Projekten kollidieren würde.
Kritisch ist auch die technische Dokumentation des Schemas32 zu sehen, die bezüglich der Genese allenfalls für ausgewiesene XML-ExpertInnen nachvollziehbar sein mag. Leider bricht in dieser Stelle die sonst gegebene Zugänglichkeit für NutzerInnen. Wie eine notwendige Anpassung durchzuführen wäre, wird nicht erläutert. Für eine Nutzung als tatsächliches Basisformat wäre dies notwendig.
Weitere Entwicklungsmöglichkeiten bieten sich im Hinblick auf die Behebung von Fehlern und der Umsetzung richtiger, aber
nicht konsequent umgesetzter Zielstellungen. So werden gänzlich unnötig die genannten Meilenstein-Elemente als Abschluss
der jeweiligen Einheiten betrachtet, nicht als deren Beginn wie in TEI. Um dem eigenen Anspruch, für gleiche Phänomene
eine eindeutige Kodierung zu verwenden33, gerecht zu werden, müssten die Elemente persName
und placeName
zugunsten einer Nutzung des name
-Elements34 mit entsprechenden Werten für das type
-Attribut aufgegeben
werden. Für eine konsistente Verarbeitung der Daten in einem ‚lebendigen‘35, also fortgeschriebenen Formats, wäre
eine Versionierung des Schemas sinnvoll.
Ein Überwinden der kurzsichtigen DFG-Förderpolitik wäre also wünschenswert, um zu verhindern, dass dieses für eine grundlegende Erfassung historischer Quellen geeignete und ausgesprochen gut dokumentierte Format an einer Stagnation in einer sich weiter entwicklenden Forschungslandschaft, in der Methoden genutzt werden, die in wiederum äußerst dynamischen technischen Systemen eingebettet sind, als langfristige Lösung scheitert. Dies würde auch das Gelingen einer langfristigen Nutzung der kodierten Artefakte in und mit zeitgemäßen Verarbeitungssystemen sicherstellen, wie sie die DFG fordert.
Fußnoten
[1] | In den letzten Jahren sind große Fortschritte in den Bereichen Named Entity Recogintion (NER), dem automatisierten von Worten oder Wortgruppen zu dem Verarbeitungssystem bekannten Entitäten, und dem Topic Modelling, der Kategorisierung von Texten, wie auch dem maschinellen Lernen im Allgemeinen gemacht worden. Für die Verarbeitung großer Datenmengen können solche Methoden trotz ihrer Unzulänglichkeiten fruchtbar gemacht werden. Einen Eindruck der Funktionalität von NER lässt bei der Verwendung dieser Webanwendung bekommen: https://www.dbpedia-spotlight.org/demo/ |
[2] | aus [Jahn1864], S. 13 |
[3] | [DFG2016], Abschnitt 3.4.3 |
[4] | [TEIC2007], Abschnitt „Text Body“ |
[5] | Obwohl die URI, die in der Bezeichnung des Namensraums verwendet wird, auf einen Token endet, der eine Versionsnummer zu sein scheint, wird dieser seit der Verwendung von XML als Basis mit der Ausgabe P4 verwendet. |
[6] | Nun ließe sich im Sinne einer reinen Lehre der segregation of concerns, also der Trennung von Sachverhalten, argumentieren, dass die Quelle unmittelbar beschreibende und die Quelle deutende Daten in jeweils dedizierten Dokumenten abzulegen seien. Dies würde aber notwendig den Aufwand der Erfassung, sowie den bei Änderungen maßgeblich erhöhen und wäre auch deutlich fehleranfälliger, da die Bezüge zwischen den Dokumenten aufrecht erhalten werden müssen. Unter Umständen kann so ein Vorgehen gerechtfertigt sein. |
[7] | [DFG2016], Abschnitt 3.4.3, vgl. http://www.tei-c.org/Vault/P5/3.2.0/doc/tei-p5-doc/en/html/USE.html#MD bezüglich der Umsetzung |
[8] | vgl. http://www.tei-c.org/Guidelines/Customization/odds.xml |
[9] | Zum Beispiel die Webanwendung Roma. |
[10] | Einen Überblick didaktischer Ressourcen zum Thema bietet eine Webseite der TEI (http://www.tei-c.org/Support/Learn/), eine Diskussion zur Didaktik [Dee2014]. Für eine zeitgemäße, englischsprachige Einführung siehe [Burnard2014], in deutscher Sprache ist lediglich eine zwanzig Jahre alte einführende Publikation bekannt ([Jannidis1997]). |
[11] | Vgl. [DFG2015], Seite 24. Dem Vernehmen nach wird dies auch in die Praxisregeln „Digitalisierung“ der DFG aufgenommen werden. |
[12] | Der Kopfbereich dient der Angabe der Metadaten zu Quelle und Transkription. Das Verhältnis ist wohl Ausdruck der den Metadaten zugemessenen Relevanz. Siehe die Übersichten http://www.deutschestextarchiv.de/doku/basisformat/uebersichtHeader.html und http://www.deutschestextarchiv.de/doku/basisformat/uebersichtText.html |
[13] | vgl. http://www.deutschestextarchiv.de/doku/ueberblick und http://www.deutschestextarchiv.de/list |
[14] | Zur Etymologie vgl. den Eintrag beim DTA-Schwesterprojekt „Digitales Wörterbuch der Deutschen Sprache“: https://www.dwds.de/wb/Basis#et-1. Beachtenswert sind dort bei der Gelegenheit auch die Verweise in Referenzkorpora wie dem DTA. |
[15] | http://www.deutschestextarchiv.de/doku/basisformat/index.html |
[16] | http://www.deutschestextarchiv.de/doku/basisformat/schema.html |
[17] | https://www.oxygenxml.com/ |
[18] | siehe https://die-holzgewächse-des-friedrichshains.de/data/documents/Transkribus_export.xml |
[19] | Daher auch die eingangs erwähnte Unterscheidung von l und lb . |
[20] | Soweit folgt dies den Kategorien des internationalen Code der Botanischen Nomenklatur nach [Zander2008], S. 13. |
[21] | http://www.deutschestextarchiv.de/doku/basisformat/div.html |
[22] | [Jahn1864], S. III. Wobei die Formulierung die Grundannahmen impliziert, dass es eine Ordnung in der Natur gäbe und der Mensch in der Lage sei, diese zu erkennen. Der Autor operiert also ganz im Geiste des sich durchsetzenden naturwissenschaftlichen Blicks der Moderne auf die Welt und unterschlägt dabei, dass er selbst einen Beitrag zur Durchsetzung dieser Sicht und Etablierung einer möglichen Ordnung leistet. Wenn jetzt also eine informatische Baumstruktur genutzt wird, um das ursprünglich vom Autor „im natürlichen Systeme“ (ebenda) – die meisten Pflanzen werden ohnehin aus Kultivierungen gestammt sein – Beschriebene zu diskretisieren, kann das als Beleg dafür gelten, dass sich diese Perspektive bis heute hält und nur weiter verschärft. |
[23] | http://www.deutschestextarchiv.de/doku/basisformat/spalte.html |
[24] | http://www.deutschestextarchiv.de/doku/basisformat/typogrAllg.html |
[25] | Beide Begriffe sind hier im Sinne Wittgensteins Tractatus‘ gemeint ([Wittgenstein2006]). |
[26] | Dazu mehr in der Beschreibung der Webanwendung. |
[27] | Diese sind konkret im Anhang Änderungen am DTABf dokumentiert, der aus Platzgründen nur in der HTML-Fassung verfügbar ist. |
[28] | vgl. [HaafGeykenWiegand2015], Absatz 8 |
[29] | vgl. ebenda, Absatz 9 |
[30] | Zum Beispiel sind die Kategorien „Rezept“ und „Tagebucheintrag“ aus dem DATBf in den Kontexten Koch- und Tagebuch im Grunde identisch in ihrer Funktion, in den „Holzgewächsen“ entsprechen dem am ehesten die Pflanzen. Denkt mensch im weiteren an Architekturführer, Tonträgerverzeichnisse u.s.w. u.s.f. wird die Unbewältigbarkeit oder zumindest Unverhältnismäßigkeit der Fortschreibung des Vokabulars klar. Ein generisches „item“ beispielsweise wäre für alle Fälle aber sehr geeignet. Gleichzeitig muss aber auch eine nötige Differenziert etwa für ein denkbares Tagebuch einer Maître de cuisine möglich bleiben. |
[31] | vgl. https://github.com/deutschestextarchiv/dtabf/issues und https://github.com/deutschestextarchiv/dtabf/pulls |
[32] | http://www.deutschestextarchiv.de/doku/basisformat/schema.html |
[33] | vgl. [HaafGeykenWiegand2015], Absatz 3 |
[34] | Dass Sachen und Sachverhalte nicht notwendig durch Namen bezeichnet werden, also etwa ein Element entity
den adäquateren Namen für diesen Zweck trüge, ist ein Mangel der TEI-Definition. |
[35] | vgl. [HaafGeykenWiegand2015], Absatz 62 |