7. Die Verarbeitung der Daten durch eine Webanwendung

7.1. Überblick

Im Jahr 2018 ist unstrittig, dass das Web die zugänglichste Plattform zur Verteilung von digitalen Informationen und dem Ausführen EndanwenderInnen-Software ist.1 Seinen Anfang nehmend als Rahmenwerk zum Verteilen, Lesen und inhaltlichen Assoziieren von wissenschaftlichen Veröffentlichungen am CERN, ist das Web streng genommen eine Menge von präskriptiv-normativen Standards, die beständig unter dem Schirm des World Wide Web Consortium (W3C) weiter entwickelt werden. Als allgemeiner Trend der letzten Jahre ist festzustellen, dass die technische Entwicklung sich an den Interessen der mehrheitlichen2 Stakeholder orientiert, also im Wesentlichen kommerziellen. Beispielhaft in den letzten Jahren steht die Einführung von Digital Rights Management (DRM) als Standard, der die ursprüngliche Idee eines offen zugänglichen Netzwerks von Informationen bricht.3 Seine koordinierende, vermittelnde Rolle füllt das W3C aber erfolgreich aus, so dass ein Abgesang des Webs für Wissenschaft und Gesellschaft noch lange nicht in Aussicht steht. Aufmerksam sollte jedoch die normative Kraft der infrastrukturellen Konzentration des Webs auf drei renditeorientierte Akteure im Blick behalten werden.4 Die gleiche Tendenz lässt sich für das Internet, die für das Web notwendige (aber nicht alternativlose) Transportschicht für Daten, das unter der Ägide der Internet Engineering Task Force (IETF) standardisiert wird, feststellen. Hier wird vor allem der Grundsatz der diskriminierungsfreien Verteilung von Daten in Frage gestellt. Die Offenheit des Internets und des Webs führten also zu deren Durchbruch als Plattform für Viele und Vieles, die sich aus diesem Durchbruch ergebenden Renditemöglichkeiten führen tendenziell zu einer Einhegung dieser Offenheit. Wissenschaft und Öffentlichkeit sollten also bemüht sein, sich in diese Entwicklungen einzubringen, um die aufklärerischen und partizipativen Potentiale des Internets und des Webs zu erhalten.

In diesem Kapitel soll es also darum gehen, wie die bisherigen Projektergebnisse – die Digitalisate und die Transkription – per Web zugänglich gemacht und erweitert werden. Aufgrund des Umfangs der Realisierung, die in ihrer Form deutlich vielgestaltiger sein kann als die bisherigen Schritte, wird hier lediglich die Funktionalität beschrieben und erörtert. Die technischen Aspekte werden im Überblick dargestellt, um von den häufig unterschätzten Schwierigkeiten5 einen Eindruck zu vermitteln. Für die konkrete technische Umsetzung von Webanwendungen an dieser Stelle allgemeingültige Vorschläge zu unterbreiten, wäre aufgrund der vielen Möglichkeiten, verschiedenen Voraussetzungen, Fragestellungen, strategischen Ziele und der immer noch rasanten technischen Entwicklungen vermessen und in den meisten Fällen irreführend.

Einschränkend wirkt hier auch, dass die gesamte Planung, Formulierung von Fragestellungen beziehungsweise von Zielen, die Erschließung der Quelle und Implementierung des Projektes in Personalunion erfolgte. Das ist selbst in den üblicherweise viel zu kleinen Teams, die Forschungssoftware gestalten,6 nicht üblich. Der wirklich spannende Teil der Zusammenarbeit von Projektbeteiligten bei einem solchen Vorhaben kann also allenfalls anekdotisch angedeutet werden.

7.2. Die Retro-Ansicht des Buches

Das Web, respektive das Werkzeug, um seine Inhalte anzuzeigen – der Webbrowser, unterliegt offenkundig anderen Beschränkungen als ein gedrucktes Buch. Ein Buch ist dabei vor allem von einer Serialität gekennzeichnet, es hat zwei Buchdeckel, quasi als definierten Anfang und Ende, zwischen denen Inhalte in der Regel linear auf Buchseiten angeordnet werden, und einer regelmäßigen Unterbrechung am Ende einer Seite. Webseiten7 haben durchaus vergleichbare Eigenschaften, ermöglichen aber durch den Wegfall der physikalischen Schranken bezüglich Oberflächen, Volumen und Masse deutlich variantenreichere Darstellungen von Text.8 Sogar ein programmatisches Verändern der angezeigten Dokumente, etwa durch Interaktion der Lesenden, ist möglich. Gleichzeitig ist unsere Schriftkultur noch ganz klar vom gedruckten Buch geprägt.

Die Entscheidung, das Buch ganz ähnlich wie im Original seitenweise darzustellen, kann also als borniert kritisiert werden. Stattdessen hätten ja auch die einzelnen Kapitel jeweils im Zusammenhang auf einer Webseite oder gar das ganze Buch auf einer solchen dargestellt werden können. Warum wurde also diese Form gewählt? Der Druck ist ja durchaus eine Rarität und schon aus konservatorischen Gründen Interessierten schwer zugänglich zu machen. Eine um Authentizität bemühte Darstellung kann einen Eindruck vom Ursprünglichen samt seiner Materialität vermitteln. Ein Qualitätsverlust in diesem Sinne wäre beispielsweise das inhaltliche Gewicht, das schon beim Betrachten der Seite 89 deutlich wird. Die in fetten Lettern gesetzten Kernbegriffe, die die ‚kosmopolitische‘ Gehölzausstattung mit dem Preußentum, seinem Hegemonieanspruch im Militärischen, Kulturellen, Industriellen und in der Wissenschaft, kontrastiert10, aber in dem Zusammenhang auch Funktionen und Mittel der Landschaftsarchitektur nennt, treten als für den Autoren in seiner Zeit paradigmatische hervor. In einem größeren dargestellten Kontext wäre das rezipierende Empfinden eher auf die Abweichung vom Rest, denn auf die Konzentration der Begriffe in einem textlichen Ausschnitt gerichtet.

Zudem ist diese Darstellung am besten geeignet, die Transformation vom Digitalisat über die annotierte Transkription zur Webansicht nachvollziehbar zu machen. Der identische Bezugsrahmen vereinfacht hierbei das Insverhältnissetzen dieser drei sukzessiven Ableitungen von der Quelle. Zum Beispiel sind einfache Satzfehler des Drucks, die in der Webansicht nun anders erscheinen, für Rezipierende als in der Transkription explizit korrigiert ersichtlich und von methodisch falschen, stillen Korrekturen, Fehlern der Texterkennung und solchen der Überführung in eine Webansicht unterscheidbar. Insbesondere ist dies im Kontext dieses Projektes im Zusammenhang mit den Namen von Pflanzen und Botanikern für die Reproduzierbarkeit der Wissensgenese relevant.

In der Webanwendung ist dies durch eine weitgehende Imitation eines gedruckten Buchs umgesetzt. Dazu beinhaltet die Ansicht einer Seite je ein Element, das dem Verso und Recto11 eines aufgeschlagenen Buches nachgebildet ist. Im Recto ist jeweils die modernisierte Ansicht einer Seite, die auf den Gebrauch einer Fraktur-Schriftart zur besseren Lesbarkeit verzichtet, sichtbar. Im Verso kann das entsprechende Digitalisat oder ein Ausschnitt der TEI-Transkription12 angezeigt werden. Zudem auch die modernisierte Ansicht der vorherigen Seite, die quasi die Haptik des Blätterns abbildet, um Textabschnitte, die sich über zwei Seiten erstrecken, im Zusammenhang lesen zu können.

Zu den Steuerelementen über dem Recto gehören neben denen zum Navigieren im Buch auch Optionen zur Darstellung, die einzeln aktiviert werden können. Etwa das Schaft-s (ſ) kann damit für ein flüssigeres Lesen durch ein ‚normales‘ s ersetzt werden. Neben dem Speichern der Präferenzen auf dem Gerät der Lesenden, ist jede Ansichtsoption auch über die Parameter in der URL steuerbar und konkrete Ansichtskonfigurationen sind so zitierbar.

Um Rezipierenden zusätzliche Inhalte in Bezug auf verwendete Begriffe, genannte Personen, Parkanlagen etc. im Rahmen der Lektüre direkt zugänglich zu machen, kann durch das Führen eines Mousepointers über beziehungsweise das Klicken auf einen Begriff, der in der Transkription mit einer Entität in der offenen Datenbank Wikidata annotiert wurde, sichtbar gemacht werden. In einer Inhaltsbox, die sich über den Begriff legt, werden verschiedene Informationen angezeigt, die einen Überblick ermöglichen sollen und auf weiterführende Inhalte verweisen. Dies sind ein Bild, das die Entität gegenständlich oder konzeptionell darstellt, ein Anriss des verknüpften Wikipedia-Artikels – möglichst in der bevorzugten Sprache der/des Lesenden – sowie Weblinks zu Enzyklopädien und (Fach-)Datenbanken. Ob und welche Inhalte im Einzelnen angezeigt werden, ist dabei gänzlich von den Inhalten der befragten Datenbank zum Zeitpunkt des Abrufs abhängig. Überlegungen über diese Abhängigkeit sind später in diesem Kapitel vermerkt.

In der modernisierten Ansicht ist im Teil des Gehölzverzeichnisses zu jedem Taxon auch ein Hyperlink zum davon abgeleiteten Eintrag im selbständigen Verzeichnis hinzugefügt.

7.3. Das selbständige Verzeichnis der Gehölze

Das wesentliche Material der Quelle, das Verzeichnis der Gehölze ist sehr geeignet, in eine andere Form der Darstellung überführt zu werden, wodurch sich die Gelegenheit auftut, das Ansinnen des Autors, die „Wißbegierde zu befriedigen und Kenntnisse zu fördern“ fortzuführen und so würde auch die „lange Mühe“ dieses Projektes „keine vergebliche gewesen sein“13. Das Verzeichnis ist bereits mehr oder weniger als botanische Taxonomie strukturiert14, umfasst also auch Informationen über abstrakte Konzepte wie Familien und Gattungen der Pflanzenwelt.

Die Taxonomie entspricht keinem üblichen botanisch-taxonomischen System, ist in sich nicht konsistent15, vermutlich zum besseren Auffinden der Exemplare hat der Autor Gruppierungen anhand gemeinsamer phänotypischer Eigenschaften getroffen, Arten und Varietäten sind hierarchisch gleichgestellt.

Die Beschreibung der einzelnen Gehölze folgt grob dem folgenden Schema, die konkreten Verzeichniseinträge weisen diesbezüglich jedoch eine breite Varianz auf:

|lateinischer Name||Autor| |deutscher Name|…
Syn. |Synonym||Autor|…

|Beschreibung verschiedener Merkmale, meist von Pflanzenteilen|
|Standort im Hain| |Blütezeit|
|Herkunft|

In den Beschreibungen und Standortangaben bezieht sich der Autor gelegentlich auf andere Einträge. Wiederholt sind dieselben Autoren eines Taxons referenziert.

_images/06_01_erd.png

Abbildung 7.1 Graphisches Schema des Datenmodells der extrahierten Taxonomie

Um nun diese Informationen in eine Datenbank zu überführen, wurde ein Algorithmus geschrieben16, der das Markup der Transkription auswertet und verschiedenen Regeln folgt, die die Beziehung von Auszeichnungselementen zueinander und annotierte typographische Eigenschaften berücksichtigt. Bezüglich der Autoren bot sich an, für eine zuverlässige Erkennung ein kontrolliertes Vokabular als Referenz zu verwenden. Ein solches ist im Buch bereits als „Erklärung der Abkürzungen von Autornamen.“17 enthalten. Allerdings stellte sich heraus, dass dieses keineswegs vollständig ist, also im Gehölzverzeichnis auch Abkürzungen verwendet werden, die dort nicht aufgeführt sind. Zudem wurden in manchen Fällen verschiedene Abkürzungen oder auch ein ganzer Name verwendet. Das Ergebnis der Aufbereitung, diese Mängel zu bereinigen, ist in den weitestgehenden editorischen Eingriff gemündet, so dass nun ein vollständiges Verzeichnis der referenzierten botanischen Autoren in der modernisierten Ansicht vorliegt.18 Dass dieser Algorithmus nicht in jedem Fall akkurate Ergebnisse erzielt, ist ein Kompromiss zwischen dem Aufwand, eine alle Phänomene berücksichtigende Routine zu formulieren und dem, der eine spätere manuelle Bearbeitung der Fehler erfordert.

Die Darstellung der Datenbankinhalte folgt dem Paradigma, dass ein Eintrag immer im vollständigen taxonomischen Kontext angezeigt wird. Das heißt, dass alle über- und untergeordneten Taxone auch in der Webansicht angezeigt werden, wobei das gewählte Taxon hervorgehoben wird. Die Inhalte der Nachgeordneten können einzeln oder durch Schaltflächen zugleich minimiert oder erweitert werden. Dies ermöglicht also ein Lesen, ein Nachvollziehen der Ordnung der Taxonomie, bei der deren Kaskadierung in einer entsprechenden Form abgebildet wird, was im Buchdruck bei diesem Umfang nicht möglich ist. Ein Statusfeld am oberen Rand zeigt vor der Zählung der in der Ansicht enthaltenen Taxone je Kategorie auch die Zahl der gegenwärtig erweiterten an, was zuweilen bei umfangreichen Ansichten der Orientierung helfen kann. Dazu werden die Taxoneinträge auch farblich verschieden je Kategorie hinterlegt.

Jeder Eintrag verfügt über Schaltflächen, die eine eigene Ansicht im Verzeichnis oder die Seite des Vorkommens in der Buchansicht öffnen. Ein Eintrag ist in drei Spalten gegliedert. In der Ersten sind die in Abbildung 7.1 schematisierten Informationen, die aus der Transkription extrahiert wurden, abgebildet.

Die zweite und dritte Spalte sind entweder leer oder zeigen Inhalte, die von verschiedenen Webressourcen abgerufen werden. Zentral ist dafür die Eigenschaft wikidata_url im Datenmodell, das mit einem Webformular (vgl. Abbildung 7.2) in die Datenbank eingefügt werden kann. Dessen Wert ist die URL einer Entität in der Datenbank Wikidata, die als Entsprechung eines Eintrages in den „Holzgewächsen“ identifiziert wurde.19

_images/06_02_taxon_edit.png

Abbildung 7.2 Das Formular zum Bearbeiten eines Taxons in der Webanwendung des Gehölzverzeichnisses.

Das Formular kann auch genutzt werden, um etwaige Fehler in den extrahierten Datenbankinhalten zu korrigieren und Schreibweisen zu normalisieren. Der beschreibende Text wird mit der einfachen Auszeichnungssprache Markdown notiert, wodurch die Textformatierungen hinreichend für diese Anwendung erhalten werden können ohne das schwerfällige TEI zu bemühen. So können auch simple HTML-Links auf Datenbankeinträge gesetzt werden, die im beschreibenden Text häufig etwa als „vorige“ referenziert werden, aber womöglich nicht Teil der aktuellen Ansicht sind.

Um auf die wikidata_url zurück zu kommen; ist diese für einen Eintrag in der Datenbank hinterlegt, werden bei allen folgenden Abrufen zunächst darauf bezogene Anfragen an Wikidata abgesetzt und die Antworten darauf aggregiert. Dieses Aggregat umfasst die primären deutschen und botanischen Namen einer Entität, den taxonomischen Rang, das übergeordnete Taxon – gegebenenfalls auch ein Hyperlink zu dessen Eintrag im Verzeichnis, Synonyme, Basionyme und der Gefährdungsstatus laut IUCN20. Im Zusammenhang mit den Inhalten der ersten Spalte ergeben sich Perspektiven auf die Entwicklung botanischer Taxonomien, in der zum Beispiel ein Eindruck davon entstehen kann, dass sich die Bezeichnungen Linnés scheinbar in vielen Zweigen durchgesetzt haben, in manchen aber nicht. Oder der Umstand, dass anno 1864 als Synonyme vermerkte Namen nordamerikanischer Arten und Autoren die heute geläufigen sind, kann ein Hinweis auf die damalige Orientierung an räumlich näher gelegenen Kollegen und den besseren Sachverstand der nordamerikanischen Kollegen sein.

Zudem werden auch die Referenzen auf Verbreitungskarten und Abbildungen in das HTML eingebettet, so dass diese in der Ansicht angezeigt werden. Diese wären sicher im Sinne Jahns eine wünschenswerte Ausstattung des Originals gewesen, die um den Preis erschwinglich zu halten, nicht möglich war. Auch lässt sich so vielleicht eine bessere Idee davon bekommen, welche Vielfalt an Gehölzen in der Mitte des 19. Jahrhunderts in einem Stadtpark Berlins in der Gestaltung Gustav Meyers verwendet wurde und in der Plantage respektive dem als solche verwendeten Turnplatz kultiviert wurde.

Für Autorennamen in der ersten Spalte sowie alle Entitäten, die für die Zweite abgerufen wurden, ist wie in der Buchansicht das Kontextualisieren mit externen Inhalten möglich.

7.4. Reflektionen zur Entwicklung und Nutzung der Forschungssoftware

Grundsätzlich kann für Forschungssoftware, die im Rahmen von Projekten entwickelt wird, nicht davon ausgegangen werden, dass für deren Funktionalität eine vollständige Spezifizierung formuliert werden kann. Dies ergibt sich aus der Offenheit von Forschung gegenüber Fragestellungen sowie den genutzten und im Verlauf gebildeten Informationen. Ebenso haben sich in der Entwicklung von AnwenderInnensoftware Methoden durchgesetzt, die eben die konkreten Bedürfnisse und Einsichten der die Software Nutzenden schneller in deren Weiterentwicklung zurück fließen lassen. Diese in der durchaus unscharfen Kategorie Rapid Application Development (RAD) zusammengefassten Paradigmen und Technologien sind für Forschungssoftware also geeignet. In jüngerer Vergangenheit haben sich Initiativen zur Institutionalisierung des Research software engineering (RSE) gegründet21, die bisher mit der eigenen Konstituierung und inhaltlichen Orientierung beschäftigt sind. Welche konkreten Beiträge diese sowohl für die IngenieurInnen als auch die Forschung im Allgemeinen zu leisten vermögen, wird sich zeigen.

Neben der Wahl von für ein ständiges Prototyping geeigneten Programmiersprachen, -werkzeugen und -paradigmen ist für ein funktionierendes Umsetzen des RAD-Prinzips die Wahl der verwendeten Datenformate und -speichsysteme zentral. Dabei erweisen sich solche, die entgegen den üblichen relationalen Datenbanksystemen auf strikte Schemata verzichten, als zielführend. Dem Verzicht auf den Gebrauch solcher Prüfungen lässt sich mit der Implementierung von Prüfroutinen begegnen, die die Forschungssoftware in verschiedenen Situationen ausführt. Solche sind ohnehin geboten, erlauben sie doch eine Prüfung auf im Forschungskontext spezifische Plausibilitäten etwa, die sich mit den Grammatiken für die Schemata eines Datenformats / Speichersystems nicht ausdrücken lassen. Auch kann so das Einhalten von (sich womöglich ändernden) Regeln erst zu bestimmten Zeitpunkten im Projektverlauf forciert werden – in der Zwischenzeit können Daten noch inkonsistent und fehlerhaft sein, weil andere etwa noch in Archiven ausgehoben werden müssen22 oder die Datenmodellierung noch nicht vollständig abgestimmt ist23. Strikte Systeme lassen dies nicht zu.

Das Verknüpfen selbst erhobener Daten mit Einträgen in externen Datenbanken wie Wikidata erlaubt eine Einbeziehung weiterer Informationen zur Auswertung und Darstellung ohne diese selbst erheben zu müssen. Der Bezug auf das von Anderen formuliertes Wissen ist dabei keine Neuheit im wissenschaftlichen Arbeiten. Von der vor-digitalen Weise unterscheidet sich die Informationsrepräsentation signifikant, die deutlich instabiler als auf Papier fixierte ist. Auf der einen Seite besteht so eine Unsicherheit hinsichtlich Aussagen und Zitationen, die durch Änderungen Dritter ungültig werden können, und bei Datenbanken, die grundsätzlich von Allen veränderbar sind, tritt eine sehr heterogene Qualität und Nachvollziehbarkeit der Daten hinzu. Andererseits bieten diese offenen Systeme auch die Möglichkeit, Informationen zu korrigieren oder zu löschen. Hier können engagierte Fachcommunities, die sich langfristig um qualifizierte Daten bemühen, als effektive Filter fungieren. Für die Entwicklung einer Kultur der kontinuierlichen Datenkuration und der dabei genutzten Werkzeuge ist noch viel Raum.24 Für Nutzende sind dabei vor allem Standards zur Bewertung und Auszeichnung der Qualität von Daten sowie die möglichen Handlungsweisen, dies zu berücksichtigen, von Interesse. Dass kein Wissen stabil ist, zeigt bereits eine Re-Lektüre der „Holzgewächse“ nach einhundertfünfzig Jahren. Die neuen Herausforderungen speisen sich aus der erhöhten Volatilität.

Wikidata als Referenzsystem ist insofern von Vorteil, als dass die Datenbank nicht domänenspezifisch ist und Einträge häufig auf Entsprechungen in anderen Normdatenbanken verweisen. In Datenmodellen genügt somit ein Feld, um mit der Software Informationen aus anderen Datenbanken abrufen zu können.

Sollte aus einem Forschungsvorhaben ein Datensatz gut strukturierter Daten gesicherter Informationen anfallen, lassen sich diese in Wikidata inklusive einer Quellenreferenz auf die Veröffentlichung des Vorhabens einspielen. Aus diesem Projekt käme zum Einen das Eintragen der dort bisher nicht bekannten Taxone in Betracht, doch wäre dafür eher eine Auswertung der vom Autor vermeintlich genutzten Literatur geboten25, um die Informationen zur Provenienz gesicherter angeben zu können. Deutlich sicherer sind die verwendeten Vulgärnamen zu werten und entsprechende Aussagen könnten also automatisiert eingetragen werden.

Fußnoten

[1]Dass beides per Web möglich ist, ist schon ein erster, selten genannter Grund für seinen Erfolg.
[2]Die Verhältnisse ergeben sich schlicht aus den Ressourcen, die Konzerne in Form von IngenieurInnen zur Erarbeitung von Erweiterungsvorschlägen allozieren können.
[3]Nun ließe sich dem entgegen halten, dass die Einschränkung des Zugangs zu Webinhalten – einer Schnittstelle zu einem Email-Postfach etwa – längst gang und gäbe ist. Doch impliziert die DRM-Technologie weitere, für den Grundsatz der Offenheit problematische Sachverhalte wie die zwingend nicht-anonyme Rezeption von Inhalten und die Unveränderbarkeit der Software samt potentieller Kriminalisierung technisch Interessierter.
[4]Vgl. [Staltz2017], dessen Analyse nahe legt, dass der Turning Point zu einem zentralistischen Netzwerk bereits vollzogen sei.
[5]Solche Unterschätzung rührt im besten Fall daher, dass für Nutzende die Komplexität und auch Kompliziertheit informationstechnischer Lösung in den BenutzerInnenschnittstellen nicht sichtbar wird. Das Spannungsfeld von Zugänglichkeit und Entmündigung verdient durchaus mehr Aufmerksamkeit in den Fachcommunities.
[6]Das Verhältnis von Projekten zu diesen technisch Entwickelnden als einfacher Kennzahl hinsichtlich der Gelingensvoraussetzungen ist in geisteswissenschaftlichen Projekten ist in der Regel reziprok im Vergleich zu anderen Softwareentwicklungen. Vergessen Sie als nicht-technische Projektbeteiligte also nie beständig Ihre Anerkennung zum Ausdruck zu bringen!
[7]Dem Namen nach also vermeintlich ein Äquivalent der Buchseite.
[8]Von den Druck transzendierenden Audio- und Videomedien wird in der Webanwendung kein Gebrauch gemacht.
[9]siehe https://die-holzgewächse-des-friedrichshains.de/buch/page/12?verso=facsimile
[10]Gedanklich ist die Forderung nach einem „Platz an der Sonne“ zur Kontemplation für die protestantische Leistungsgesellschaft der folgenden Generation hier im lokalen, importierten Rahmen vorweg genommen. Bemerkenswert ist in dem Zusammenhang auch wie die am Beginn des Kapitels benannte milieu-übergreifende soziale und hygienische Funktion der großen öffentlichen Berliner Parkanlage in der ersten Hälfte des 19. Jahrhunderts nun in der Jetztzeit des Autors hinter eine Betonung des Geistigen und individuellen Empfindens tritt; auf wenigen Seiten der deutschen Wendung des gescheiterten demokratischen Aufbruchs 1848 zur Romantik folgend.
[11]Das sind die Rückseite einer Buchseite auf der linken und die Vorderseite auf der rechten Seite eines aufgeschlagenen, gebundenen Druckes.
[12]Dabei handelt es sich wiederum um eine Ableitung von der Transkription des ganzen Buches bei der strukturelle Eigenschaften, die außerhalb des Seitenabschnitts definiert sind, erhalten und durch den Standard überwindende Attribute, durch vor- und nachgestellte __ im Namen ersichtlich, ausgezeichnet sind. Dies ist notwendig, um die Verortung der Seiteninhalte im gesamten Kontext zu erhalten, in erster Linie die hierarchische Ordnung von Überschriften. Vergleichbar ist dies mit einer aufrecht stehenden Zwiebel, von der zwei gegenüberliegende Halbkugeln abgetrennt wurden.
[13][Jahn1864], S. IV
[14]Und in der digitalen Datenverarbeitung geht es um Grunde um nichts anderes als Daten zu Informationen zu strukturieren. Dies schlägt in der Praxis nicht selten als Selbstzweck durch.
[15]So werden zuweilen Ebenen der taxonomischen Hierarchie ausgelassen, Untergattungen werden in nur einer Gattung erwähnt, Autoren werden mittels verschiedener Abkürzungen notiert.
[16]siehe web/verzeichnis/management/commands/import_taxonomy_from_document.py in https://die-holzgewächse-des-friedrichshains.de/data/src/project.tar.gz
[17][Jahn1864], S. 77 f. Im Laufe der Recherchen wurde auch ein neuer Artikel in der Wikipedia über George Don d. Ä. erstellt, da ein solcher Voraussetzung für einen Eintrag in der Datenbank Wikidata ist, mit der die Autoreneinträge in der Transkription verknüpft werden.
[18]Solche Umstände, bei denen sich im Projektverlauf die vorliegenden Daten sich als nicht hinreichend für eine weitere Verarbeitung entpuppen und verschieden aufwendige Recherchen, Datenerfassungen und Anpassungen von Datenmodellen nach sich ziehen, sollten nicht per se als Planungsdefizit sondern die Komplexität von Welt, AkteurInnen und Methoden Widerspiegelndes betrachtet werden. Insbesondere die notwendigen Änderungen an Datenbanken und Software können sich als in Details weitreichend herausstellen, so dass die Arbeiten daran vorübergehend eine Benutzung durch andere Projektbeteiligte ausschließt. Neben einer solche Unsicherheiten berücksichtigenden, strategischen Gestaltung des Arbeitsplans ist eine Orientierung am Paradigma der „Offenen Welt“ vom Projektstart an hilfreich, um in einer solchen Situation den Fortgang eines Projektes besser gewährleisten zu können. Umso mehr, je offener der Raum für neue Fragestellungen gehalten wird. Aufgrund ihres Erfahrungsschatzes und methodischer Reife, gestaltende Prozesse vielseitig fokussieren zu können, bringen nach meinem Erachten die planenden Wissenschaften beste Voraussetzungen mit, um Projekte mit einer stark gewichteten Komponente der Daten- und Softwareentwicklung erfolgreich durchzuführen.
[19]Soweit wurde bei der Kuration keinen strikt definierten Anforderungen an die Qualität eines Wikidata-Eintrags gefolgt. Als gute Indikatoren zur Bewertung, ob ein Objekt ein sinnvolles Verknüpfungsziel sei, haben sich die Anzahl und Qualität der verknüpften Artikel in „Wikipedien“, die Anzahl, domänenspezifische Relevanz und Inhalt verknüpfter Einträge in anderen (Norm-)Datenbanken sowie selbstverständlich ein Abgleich des Wissens aus der Quelle und den entsprechenden Aussagen erwiesen. Dabei wirkt der eigene Bedarf an „sauberen“ und gesicherten Aussagen zusätzlich motivierend, Fehler, die bei der Recherche auffallen, zu beheben, Dubletten zusammenzuführen und Informationen aus anderen Datenbanken zu überführen.
[20]International Union for Conservation of Nature (https://www.iucn.org/)
[21]vgl. https://rse.ac.uk/ und https://www.de-rse.org/
[22]Also noch nicht notwendig soweit bekannt, dass eine adäquate Schematisierung sicher möglich wäre.
[23]Die Modelle müssen im Forschungsverlauf notwendig geänderten / erweiterten Fragestellungen und zuvor unerwarteten Phänomenen der Forschungsgegenstände angepasst werden können. Für das Modell des Gehölzverzeichnisses war beispielsweise ursprünglich davon ausgegangen worden, dass ein Eintrag aus der Wikidata-Datenbank nur einem Eintrag im Gehölzverzeichnis zugeordnet werden kann. Die Möglichkeit, dass in der Botanik mittlerweile Taxone als identische Spezies zusammengeführt wurden und der Autor solche zwei konkreten Gehölzen im Park zugeordnet hat, wurde zunächst nicht bedacht.
[24]Exemplarisch für Community-kuratierte Datenbanken kann https://discogs.com/, eine Datenbank für Audioveröffentlichungen, betrachtet werden. Bis vor zehn Jahren war für die Veröffentlichung eines Eintrages, die Zustimmung von Peers nach deren Begutachtung notwendig. Durch den Monetarisierungsdruck kam es zu einer Öffnung, damit gebührenzahlende HändlerInnen ihr ganzes Sortiment anbieten konnten. Die Moderation wurde durch ein Bewertungssystem für Datensätze ersetzt, das insbesondere genutzt wird, um defizitäre zu markieren; Bewertungen als „Complete & Correct“ werden selten vergeben, nach meinem Erachten ist dies weniger als Hinweis auf einen Mangel an Qualität sondern als einer auf ein Problembewusstsein bezüglich der Unmöglichkeit einer vollständigen Beschreibung realer Objekte und Sachverhalte – zumal in einem nicht abgeschlossenen Datenmodell – zu verstehen. Seit dieser Öffnung hat sich die Zahl der Datenbankeinträge etwa verzwanzigfacht. Die Veröffentlichung schlecht kuratierter Datensätze kann langfristig sogar förderlich sein, da so die Wahrscheinlichkeit, dass jemand den Mißstand entdeckt und – erweiternd, präzisierend, belegend – interveniert, erhöht wird. Voraussetzung dafür bleibt die „Präsenz“ einer ausreichenden Anzahl von ExpertInnen, die den in ihrer Domäne eingereichten Datensätzen gewachsen ist. Wichtig ist auch ein konkreter Nutzen, der die Stakeholder – SammlerInnen, die ihre Sammlungsobjekte damit verwalten, und HändlerInnen – motiviert, die Datenbankeinträge korrekt zu halten.
[25]Die in den „Verhandlungen des Botanischen Vereins …“ veröffentlichten Bibliographien, Rezensionen und Listen von Neueingängen in die Vereinsbibliothek bieten dafür Ansätze.