3. Erschließung

3.1. Überblick

Um im weiteren Verlauf der Bearbeitung entstehende Artefakte eindeutig auf das ursprüngliche Objekt in Beziehung setzen zu können und Ergebnisse nach dem (vorläufigen) Abschluss als zu diesem Original gehörige auffinden zu können, ist dieses zunächst beschreibend zu erfassen. Dazu werden deskriptive Metadaten erstellt.

Die Praxisregeln Digitalisierung der DFG1 schreibt für gedruckte Texte das Format METS/MODS vor (vgl. dort Abschnitt 3.3.1 und Anhang A). Daneben gibt es weitere Vorgaben für Handschriften, Archivmaterial und andere Unikalien wie zum Beispiel Gemälde oder Skulpturen.

Da die konkrete Quelle in der Sammlung „Berlin-Studien“ der Zentralen Landesbibliothek Berlin vorgehalten wird, liegt es nahe die von dieser Institution erstellten Metadaten zu übernehmen beziehungsweise als Grundlage zu verwenden.

Der Bestandseintrag auf der Website des Verbandskatalog der Öffentlichen Bibliotheken Berlin-Brandenburg2 bietet die Möglichkeit, Bestandsdaten für verschiedene Literaturverwaltungen zu exportieren. Dabei fällt auf, dass die exportierten Daten keinesfalls kongruent ausfallen. Ein Export in das BibTex-Format3 lässt die Autorenschaft gänzlich unter den Tisch fallen und sieht kein Feld für den Standort des Buches vor. Auch beim Export n das RIS-Format4 ist die Struktur des Titels hinsichtlich der Interpunktion vom Original abweichend. Angaben zum Standort der vorhandenen Buchexemplare fehlen gänzlich. Die Metadaten müssen also überführt, ergänzt und korrigiert werden.

3.2. XML – Eine erste Begegnung

Die erwähnten Formate METS und MODS5 basieren auf dem sehr basalen Datenformat XML. Dieses in erster Linie strukturierende Datenformat definiert eine Syntax, die es erlaubt, in Textdateien6 Daten in einer strukturierten Form zu speichern. Essentiell für die Syntax sind spitze Klammern (< und >), die es erlauben, öffnende und schließende Tags7 zu markieren, die wiederum mitsamt im öffnenden Tag definierten Attributen und dem umschlossenen Text ein Element bilden. Welche Bedeutungen mit diesen Mitteln abgebildet werden können, ist in den Spezifikationen der darauf beruhenden Formate festgehalten.

Da im Kapitel zur Auszeichung der Transkription weiter mit XML-Dateien gearbeitet werden wird, sei das Erstellen der ersten Metadaten genutzt, um die Anatomie solcher Dateien am übersichtlichen Beispiel der deskriptiven Metadaten zu erläutern.

Zunächst wird die Datei durch ihren ersten Inhalt als XML-Datei definiert, das der zweiten Ausgabe der Spezifikation mit der Versionsnummer 1.1 entspricht. Außerdem wird die verwendete Zeichenkodierung als UTF-8 angegeben.8 Die Angaben erlauben es Parsern9 den weiteren Inhalt korrekt zu interpretieren.

1
 <?xml version="1.1" encoding="UTF-8"?>

Aus der Grammatik von XML ergibt sich, dass die Struktur eines Dokumentes als Baum gelesen werden kann – ein Graph, bei dem jeder Knoten10 keinen, einen oder mehr Kindknoten haben kann. So kann zum Beispiel ein Inhaltsverzeichnis als Baum verstanden werden, in dem jedem Kapitel weitere, untergeordnete Abschnitte zugeordnet werden können. Die übliche graphische Darstellung solcher Graphen verkehrt dabei die vertikale Ausrichtung der namensgebenden Organismen, die Wurzel befindet sich also oben. Solche Baumstrukturen haben immer genau eine Wurzel und diese wird nun dem Dokument hinzugefügt.

1
2
3
4
 <?xml version="1.1" encoding="UTF-8"?>
 <mets:mets xmlns:mets="http://www.loc.gov/METS/">

 </mets:mets>

In Zeile 2 wird also das erste Element eingefügt. Name und Attribute des Elements sind zwischen der öffnenden spitzen Klammer (<) und der schließenden (>) definiert – dies ist das Starttag. Dem < folgen, durch einen Doppelpunkt (:) getrennt, der Präfix und der Name des Elements – in diesem Fall jeweils mets. Auf den Präfix kommen wir gleich zurück. Der Name dient der bedeutungsvollen Bezeichnung des umschlossenen Inhaltes. In diesem Fall ist die Bedeutung nicht mehr, als einen Behälter für weitere Daten zu definieren, deren Bedeutung und Zweck somit einem Kontext angehören. Annähernd vergleichbar wäre es mit dem Raum auf einem Stück Kartonpapier in einem bestimmten Maß, von dem wir im Kontext einer Bibliothek wissen, dass es genutzt wird, um Informationen über ein Buch darauf zu schreiben, um sich seiner zu erinnern und es später aufzufinden zu können.

Durch Leerzeichenen getrennt folgt dem Namen Attribute, hier eines mit dem Attributnamen xmlns:mets und dem auf ein assoziierendes = und von doppelten Anführungszeichen (") umschlossenen Attributwert http://www.loc.gov/METS/. Es gehört zu den wenigen Attributen, die in der XML-Spezifikation selbst definiert ist. Es bedeutet, dass dem Präfix mets der Namensraum11 http://www.loc.gov/METS/ zugeordnet ist.

Zunächst ist also zu klären was ein Namensraum ist. Im drittvorigen Absatz war von zwei verschiedenen Signifiés für den Signifiant Baum die Rede.12 Um in einem Text das gemeinte Signifié zu verdeutlichen, könnte etwa in Klammern ein math. oder ein ökol. nachgestellt werden, um auf das Fachvokabular zu verweisen, in dem die gemeinte Bedeutung viel eindeutiger ist. Da XML grundsätzlich recht offen darin ist, wie Elemente benannt werden dürfen und Dokumente miteinander kombiniert werden können, dienen Namensräume also dazu gleiche, möglicherweise homonyme Namen hinsichtlich ihrer Semantik unterscheidbar zu machen. Ein Namensraum muss also global eindeutig sein, üblicherweise werden URIs als Namensräume genutzt, die im besten Fall auf eine Dokumentation oder die Erstellenden eines Namensraumes deuten. Namensräume in XML-Dokumenten werden in der Regel wie im Beispiel im Wurzelelement angegeben, die zugeordneten Präfixe müssen dann innerhalb des Dokuments eindeutig sein und können in allen Kindelementen verwendet werden.13

Zeile 3 zeigt, dass soweit keine weiteren Daten oder Elemente enthalten sind. In Zeile 5 wird das Endtag des Wurzelelements angegeben. Wieder in spitzen Klammern gefasst ist es als schließend durch den beginnenden Schrägstrich (/) zu erkennen und durch die Wiederholung von Präfix und Namen ist ersichtlich, auf welches Starttag es sich bezieht.

Zur Information über die Metadaten selbst wird dem Dokument das Element mets:metsHdr und einem weiteren Kindelement hinzugefügt:

1
2
3
4
5
6
 <?xml version="1.1" encoding="UTF-8"?>
 <mets:mets xmlns:mets="http://www.loc.gov/METS/">
     <mets:metsHdr CREATEDATE="2017-07-24T16:00:00" RECORDSTATUS="Incomplete">
         <mets:agent ROLE="CREATOR" TYPE="INDIVIDUAL">Martin Wagner</mets:agent>
     </mets:metsHdr>
 </mets:mets>

Wie bereits erwähnt ist in Zeile 3 der Präfix aus Zeile 2, und damit der gemeinte Namensraum des Elements, nun bekannt. Das Element mets:metsHdr (Zeilen 3-5) ist das erste Kindelement des Elements mets:mets und hat die Attribute CREATEDATE, das den letzten Bearbeitungszeitpunkt nach ISO 8601 angibt14, und RECORDSTATUS, das hier in englischer Sprache das Dokument als unvollständig markiert. Dessen Kindelement mets:agent (Zeile 4) enthält Informationen über die an der Genese der Daten Beteiligten, sowohl deren Rolle (Attribut ROLE), deren Eigenschaft (Attribut TYPE) als Individuum15 und dessen Namen als Elementtext. Der Elementtext ist der gesamte Text, der zwischen Starttag und dem nächstfolgenden Start- oder Endtag steht.

Bisher besteht das Dokument lediglich aus Informationen über sich selbst. Nun werden tatsächlich die deskriptiven Metadaten in Bezug auf das Buch nach der MODS-Spezifikation hinzugefügt16:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
<?xml version="1.0" encoding="UTF-8"?>
<mets:mets xmlns:mets="http://www.loc.gov/METS/"
           xmlns:mods="http://www.loc.gov/mods/v3"
           xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
           xmlns:xlink="http://www.w3.org/1999/xlink"
           xsi:schemaLocation="https://www.loc.gov/standards/mets/mets.xsd">
  <mets:metsHdr CREATEDATE="2017-07-24T17:30:00" RECORDSTATUS="Incomplete">
    <mets:agent ROLE="CREATOR" TYPE="INDIVIDUAL">
      <mets:name>Martin Wagner</mets:name>
    </mets:agent>
  </mets:metsHdr>
  <mets:dmdSec ID="dmd001">
    <mets:mdWrap MIMETYPE="text/xml" MDTYPE="MODS" LABEL="MODS Metadata">
      <mets:xmlData>
        <mods:mods xsi:schemaLocation="https://www.loc.gov/standards/mods/v3/mods-3-6.xsd">
          <mods:titleInfo lang="ger">
            <mods:nonSort>Die</mods:nonSort>
            <mods:title>Holzgewächse des Friedrichshains bei Berlin.</mods:title>
            <mods:subTitle>
              Ein Verzeichniss derselben, nach natürlichen Familien geordnet, mit kurzen
              charakterisirenden Bemerkungen und genauer Angabe des Standortes. Nebst einer
              Beschreibung des Friedrichshains und geschichtlichen und statistischen Mittheilungen.
              Ein Wegweiser für Lehrer und Schüler</mods:subTitle>
          </mods:titleInfo>
          <mods:name type="personal">
            <mods:namePart type="family">Jahn</mods:namePart>
            <mods:namePart type="given">Carl Ludwig</mods:namePart>
            <mods:displayForm>C. L. Jahn</mods:displayForm>
            <!-- http://www.botanischer-verein-brandenburg.de -->
            <mods:affiliation lang="ger">
              Mitglied des botanischen Vereins der Mark Brandenburg ꝛc.
            </mods:affiliation>
            <mods:role>
              <mods:roleTerm type="text">author</mods:roleTerm>
            </mods:role>
          </mods:name>
          <mods:typeOfResource>text</mods:typeOfResource>
          <mods:genre authority="marcgt">book</mods:genre>
          <mods:originInfo>
            <mods:place>
              <mods:placeTerm type="code" authority="iso3166">DEU</mods:placeTerm>
              <mods:placeTerm type="text">Berlin</mods:placeTerm>
            </mods:place>
            <mods:publisher>Verlag von Julius Springer</mods:publisher>
            <mods:dateIssued>1864</mods:dateIssued>
          </mods:originInfo>
          <mods:language>
            <mods:languageTerm type="code" authority="iso639-3">deu</mods:languageTerm>
          </mods:language>
          <!-- Naturwissenschaften / … / … Naturgeschichte … / … / Pflanzen-Deutschland -->
          <mods:classification authority="ddc" edition="23">581.943</mods:classification>
          <!-- Künste und Unterhaltung / … / Öffentliche Parks und öffentliches Gelände -->
          <mods:classification authority="ddc" edition="23">712.5</mods:classification>
          <!-- Künste und Unterhaltung / … / Gehölze als Gestaltungselemente -->
          <mods:classification authority="ddc" edition="23">715</mods:classification>
          <!-- Geschichte und Geographie / … / Nordostdeutschland -->
          <mods:classification authority="ddc" edition="23">943.1</mods:classification>
          <mods:location>
            <mods:physicalLocation lang="ger"
                                   xlink:href="https://www.zlb.de/fachinformation/spezialbereiche/berlin-studien.html">
              Berlin-Studien der Zentral- und Landesbibliothek Berlin
            </mods:physicalLocation>
            <mods:shelfLocator>B 75 Frie 5</mods:shelfLocator>
          </mods:location>
          <mods:location>
            <mods:physicalLocation lang="ger"
                                   xlink:href="https://www.zlb.de/fachinformation/spezialbereiche/berlin-studien.html">
              Berlin-Studien der Zentral- und Landesbibliothek Berlin
            </mods:physicalLocation>
            <mods:shelfLocator>B 75 Frie 5 a</mods:shelfLocator>
          </mods:location>
        </mods:mods>
      </mets:xmlData>
    </mets:mdWrap>
  </mets:dmdSec>
</mets:mets>

Zunächst sind die zusätzlichen Namensräume in den Zeilen 3 bis 5, die den Präfixen mods, xsi und xlink zugeordnet werden, bemerkenswert. Ersterer wird ab Zeile 15 verwendet, xsi wird in Zeile 6 für die Angabe eines Attributes verwendet wird, um auf ein XML-Schema zu verweisen. Das Schema definiert Regeln wie das mets:mets-Element und seine Kindelemente aufgebaut sein müssen. Darüber ist eine Qualitätskontrolle der Daten möglich, etwa dass bestimmte Angaben vorliegen müssen oder welche Zeichen für eine Angabe verwendet werden dürfen. Der xlink-Namensraum wird für das Verweisen auf andere Ressourcen verwendet.

Das geänderte CREATEDATE-Attribut (Zeile 7) erlaubt durch Vergleich die aktuellste Fassung dieses Dokuments zu identifizieren und Änderungen nachzuvollziehen. In Zeilen 12 bis 14 wird nun der eigentliche Beginn der deskriptiven Metadaten innerhalb des METS-Dokuments als MODS-Teildokument, das sich über die Zeilen 15 bis 72 erstreckt, eingeleitet. Das Schema für dessen Prüfung ist im Wurzelelement mods:mods als Attribut xsi:schemaLocation referenziert (Zeile 15).

In den Zeilen 16 bis 24 wird der Buchtitel angegeben, wobei die Sprache, eine Eigenschaft zur Sortierung und eine Hierarchisierung der Titelinhalte berücksichtigt werden. Der Autor wird in den Zeilen 25 bis 36 notiert. Dabei wird in Zeile 29 ein XML-Kommentar verwendet, um auf die Webseite des Vereins, der im folgenden Element benannt wird, zu verweisen. Solche Kommentare sind in der Textdatei für Menschen lesbar, von Parsern werden sie womöglich jedoch ignoriert und ihr Inhalt steht für algorithmische Verarbeitungen somit nicht zur Verfügung. Eine maschinenlesbare Form ist für das affiliation-Element (Zeile 30) ist im MODS-Schema leider nicht vorgesehen. Nämlich Verweise auf Ressourcen als xlink:href-Attribut analog zu Hyperlinks in HTML-Dokumenten angegeben zu können, obgleich das für viele andere Elemente gilt17. Die Angabe als Kommentar dient hier also als für Bearbeitende informative Angabe, die gegebenenfalls bei der Verwendung eines erweiterten Schemas, das solch eine Verknüpfung zulässt, verwendet werden kann. Bemerkenswert am Text des mods:affiliation-Elements ist die Verwendung des Unicode-Zeichens für ein kleines, rundes „r“ in der Abkürzung „ꝛc.“ (etc.).18

Die Zeilen 37 und 38 enthalten Kategorisierungen der Quelle als Buch mit vornehmlich textuellen Inhalt. Die Informationen zur Veröffentlichung und zur Sprache des Inhalts folgen in den Zeilen 39 bis 49. Die authority-Attribute in manchen Elementen verweisen auf den Standard an den sich der Elementtext hält. So zum Beispiel die kodierte Angabe Deutschlands als Erscheinungsort nach ISO 3166 in Zeile 41. Eine Kategorisierung des Inhalts gemäß der Dewey Decimal Classification in der 23. Ausgabe findet sich in den Zeilen 50 bis 57, wobei an Menschen gerichtete Hinweise auf das mit der Kodierung gemeinte als XML-Kommentare hinterlegt sind. Letztlich werden zwei Standortangaben der physischen Objekte, die gescannt wurden, in den Zeilen 58 bis 71 hinterlegt.

Da kein einfaches Werkzeug ausfindig gemacht werden konnte, um XML-Dokumente anhand der in ihnen referenzierten Schemata zu überprüfen, wurde ein kleines Kommandozeilenprogramm dafür geschrieben. Die Überprüfung damit führte zur Rücknahme des oben erwähnten Verweises auf den Verein des Autoren. Die Anforderung weiterer Arten von Metadaten neben den deskriptiven, die die Seiten des Buches und die davon erstellten Difitalisate beschreiben, werden zunächst ignoriert. Dieses vorläufige Ergebnis ist unter der URL https://die-holzgewächse-des-friedrichshains.de/data/documents/mods.xml verfügbar.

Fußnoten

[1][DFG2016]
[2]https://voebb.de/aDISWeb/app?service=direct/0/Home/$DirectLink&sp=SPROD00&sp=SAK12517572
[3]BibTex ist ein Text-basiertes Format, um Bibliographien für automatisierte Verarbeitungen zu erstellen. Es geht auf den Gebrauch im Zusammenhang mit LaTeX-Dokumenten zurück.
[4]Dieses Format hat sich zum de-facto-Standard als Austauschformat zwischen verschiedener, vor allem proprietärer Software zur Literaturverwaltung durchgesetzt. Siehe http://endnote.com/sites/rm/files/m/direct_export_ris.pdf .
[5]Beide Standards werden federführend von der Library of Congress (https://www.loc.gov/) entwickelt. Der erste definiert einen Rahmen zur Strukturierung verschiedendartiger Metadaten, die digitale Objekte beschreiben. Der zweite definiert das Schema der Metadaten, die das den Digitalisaten zugrunde liegende Objekt beschreibt.
[6]Textdateien sind solche Dateien die eine Reihe von Textzeichen gemäß einer Zeichenkodierung repräsentieren, nicht solche, die mit Textverarbeitungsprogrammen erstellt werden und weitere Daten enthalten, die beispielsweise ein Layout oder Elemente davon enthalten.
[7]Die naheliegendste deutschsprachige Entsprechung in diesem Kontext wäre wohl Auszeichner, die jedoch völlig unüblich ist, sich aber in der Kategorisierung XMLs als Auszeichnungssprache wiederfindet.
[8]vgl. [W3C2006], Abschnitt 2.8
[9]Das sind Algorithmen, die Zeichenfolgen zur weiteren Verarbeitung in „computerverständliche“ Datenstrukturen überführen und dabei einer eindeutigen Grammatik folgen.
[10]Im Falle von XML ist ein Element ein Knoten.
[11]xmlns ist abgeleitet von „XML namespace“.
[12]Um die Relevanz des Konzeptes dieser Unterscheidung – vor allem die Arbitrarität der Instanzen beider Kategorien und des Verhältnisses zwischen ihnen – zu verdeutlichen, werden hier die von Ferdinand des Saussure eingeführten Begriffe für Bezeichnendes und Bezeichnetes verwendet.
[13]Alternativ ist es möglich für jedes Tag den Namensraum explizit anzugeben, beispielsweise: {http://www.loc.gov/METS/}mets.
[14]Insofern ist die Namenswahl CREATEDATE ungünstig, da der Begriff „creation“ strikt genommen nur eine (ursprüngliche) Erstellung, nicht aber weitere Bearbeitung meint.
[15]Eine erfassende Institution, wie zum Beispiel eine Bibliothek, sollte mit dem Attribut TYPE="ORGANIZATION" dokumentiert werden.
[16]siehe https://www.loc.gov/standards/mets/METSOverview.v2.html#descMD und https://www.loc.gov/standards/mods/v3/mods-userguide.html
[17]vgl. https://www.loc.gov/standards/mods/userguide/generalapp.html#xlink
[18]vgl. http://www.matthias-kammerer.de/SonsTypo5.htm#sonderzeichen