9. Transkriptionsrichtlinien¶
Die Transkription folgt im Grundsatz den Richtlinien, die Teil des DTA Basisformat ([DTA]) sind.1
Mangels einer geeigneten Möglichkeit wurde auf die Unterscheidung von Antiqua-Glyphen mit und ohne Serifen verzichtet.
Im Hinblick auf eine Darstellung als HTML wurden bei Worttrennungen am Zeilenende nicht-umbrechende Leerzeichen
verwendet (U+A0
). Im Falle von Silbenumbrüchen wird -
(U+2D
) verwendet, bei Trunkierungen und Konjunktionen
von Wörtern ‐
(U+2010
), bei von-bis-Angaben –
(U+2013
).
Die Regularisierung von Längen- und Flächenmaßen basiert auf den Kenntnissen, die in [Wikipedia2017] wiedergegeben sind. Anhand des Verwendens verschiedener Maßeinheiten seiner Zeit auf Seite 7 konnte deduziert werden, dass der Autor die Duodezimalteilung nutzte. Wo er Maße aggregierte, wurden die verwendeten Umrechnungsverhältnisse verifiziert.
Im Verzeichnis der Holzgewächse sind die Textabschnitte (div
), die Inhalte zu Taxonen beinhalten, und einzelne
Nennungen im Fließtext (name
) mit folgenden type-Attributen kategorisiert:
plant_class
für Klassenplant_family
für Familienplant_genus
für Gattungenplant_subgenus
für Untergattungenplant_species
für Arten und Varietäten von solchenplant_phenogroup
für Gruppen verschiedener der vorgenannten Kategorien, die der Autor unter der Nennung gemeinsamer phänotypischer Eigenschaften in verschiedenen Ebenen der Taxonomie vornimmt.
Wegen Uneindeutigkeiten typographischer Eigenschaften wurde von einer heuristischen Kategorisierung vor einer Überführung in eine Datenbank abgesehen.
Das Autorenverzeichnis wurde um fehlende, im Gehölzverzeichnis benutzte Einträge ergänzt, alle Namen der Autoren, die eindeutig identifiziert werden konnten, sind mit Referenzen zu den entsprechenden Entitäten in der Wikidata-Datenbank versehen worden. Dem Autorenverzeichnis wurden auch solche, die nicht abgekürzt verwendet werden, hinzugefügt, um einen zentrales Mapping der Referenzen aus dem Verzeichnis zu Namen und Wikidata-Entitäten für weitere Verarbeitungen zur Verfügung zu stellen. Zur Identifizierung uneindeutiger Namensangaben wurden Lebensdaten und bekannte Veröffentlichungen der Kandidaten herangezogen. Werden im Verzeichnis verschiedene Abkürzungen für denselben Autoren verwendet, so wurden diese entweder zur dominierenden oder, wenn eine solche nicht auszumachen ist, zur heute kanonischen Form regularisiert.