12. Glossar

Die Erläuterungen in diesem Glossar sind keineswegs erschöpfend für die Begriffe an sich. Sie sollen in erster Linie die im Zusammenhang dieser Arbeit relevanten Bestimmungen, Inhalte und Bezüge klar stellen.

Algorithmus
Eine endliche Reihe von Regeln, die ein Problem löst. Um Computer Algorithmen ausführen zu lassen, werden üblicherweise Konstrukte verschiedener Abstraktionsarten (meist imperativ, deklarativ, funktional oder objektorientiert) von Menschen in Programmier- und Deklarationssprachen formuliert, die dann letztlich von den Recheneinheiten des Computers – der Definition einer Turingmaschine folgend – imperativ abgearbeitet werden.1 Die Sachverhalte des Problems werden durch die Eingabedaten bestimmt, die Ausgabedaten repräsentieren die Lösung.
Annotation
Im Editionswesen fügen Annotationen einem Text zusätzliche Informationen hinzu. In der EDV erfolgt das analog in Bezug auf Daten. Mit TEI etwa werden digitalen Texten Informationen über deren originäre Erscheinung und auch editorische hinzugefügt, in diesem Fall ist das identisch mit dem Auszeichnen qua Markup-Sprache.
API
Mit einem Application Programming Interface stellt eine Software die Nutzung der eigenen Funktionalität für andere Software bereit. Dies wird auf verschiedene Weisen realisiert, Webanwendungen nutzen meist ReST-Schnittstellen, die von Webservices bereit gestellt werden.
Artefakt
Im Kontext des wissenschaftlichen Arbeitens mit digitalen Werkzeugen sind Ausgabedaten gemeint, die als Ergebnis einer algorithmischen Verarbeitung von Eingabedaten entstehen. In der Gesamtheit werden diese als Forschungsdaten bezeichnet. Dass Artefakte in der wissenschaftlichen Arbeit entstehen und welche diese eigentlich sind, wird häufig kaum reflektiert. Über die Relevanz der langfristigen Speicherung sämtlicher Artefakte herrscht in der wissenschaftlichen Community noch keine Einigkeit. Auf der einen Seite gibt es den Standpunkt, dass lediglich die ursprünglichen Daten (hier die Digitalisate) und Veröffentlichungen vorgehalten werden sollen. Demgegenüber steht die Forderung, sämtliche Artefakte inklusive des Quellcodes bei der Verarbeitung verwendeter Software zu archivieren, um eine minutiöse Reproduzierbarkeit der Forschungsergebnisse zu gewährleisten und wissenschaftshistorische Einsichten zu ermöglichen.
Baum
In der Datenverarbeitung ist dies ein Datentyp in der Struktur eines gerichteten Graphen, bei dem auf alle Knoten von genau einem anderen gezeigt wird, mit der Ausnahme des Wurzelknotens, auf den kein anderer zeigt.
CAD
Computer Aided Design bezeichnet Software, die die Erstellung von Modellen und Planungsunterlagen für Gestaltungen verschiedenster Art erlaubt.
Client
Ein Client bezeichnet ein Gerät oder eine Software, für deren Funktionen auf Ressourcen zugegriffen wird, die ein Server bereit stellt. Webbrowser, die Webseiten abrufen und darstellen, sind zum Beispiel solche.
DDC
Die DDC wurde zur inhaltlichen Kategorisierung von Bibliotheksbeständen durch Melvil Dewey entwickelt und geht in seiner Struktur auf Gottfried Wilhelm Leibniz zurück. Die Kategorieebenen sind durch Sequenzen dezimaler Ziffern abgebildet, wobei je Ebene also zehn Kategorien möglich sind. Die Klassifikation 715 zeigt also in erster Ebene auf „Künste und Unterhaltung“ (7xx), folgend auf „Landschaftsgestaltung, Raumplanung“ (71x) und letztlich auf „Gehölze als Gestaltungselemente“ (715). Die deutschsprachige Plattform WebDewey Search bietet neben einem Browser durch die Kategorien auch die Möglichkeit, nach Beständen einer Kategorie der Deutschen Nationalbibliothek und weiterer Bibliotheken zu suchen.
Digitalisat
Eine digitale Repräsentation der meist nur wesentlichen Aspekte eines Objektes in der realen Welt, wie das Abbilden von Farbwerten in einer zweidimensionalen Matrix, um ein Gemälde oder eine Buchseite wiederzugeben oder eine Reihe von regelmäßig gesampelten Frequenzwerten, die die Wiedergabe einer Phonographenwalze festhält.
EDV
Der Begriff Elektronische Datenverarbeitung fasst alle Verfahren zusammen, bei denen Daten mit Hilfe mikroelektronischer Geräte gelesen, übertragen, transformiert, gespeichert und ausgegeben werden.
Entität
Entitäten sind voneinander abgrenzbare Sachen, konkrete wie abstrakte. Der Ortsteil Friedrichshain und der Park mit demselben Namen sind beispielsweise konkrete, die Kategorien Park und Landschaftspark sind Beispiele für abstrakte Entitäten. Im Kontext des Semantic Web werden Entitäten in Tripel-Aussagen als Subjekte und Objekte verwendet.
Faksimile
Eine möglichst originalgetreue Wiedergabe von Dokumenten.
Graph
In der EDV ist ein Graph eine logische Datenstruktur, in der Daten vor allem in Beziehungen zueinander gebracht werden. Wie in der Mathematik sind Knoten, die zumeist Entitäten abbilden, durch Kanten miteinander assoziiert. Beide Elemente werden durch Eigenschaften beschrieben.
HTML
Die HyperText Markup Language ist eine Markup-Sprache, die das Rückgrat von Webseiten und -anwendungen bildet. Neben der Auszeichnung von Texten – in seiner Entstehungszeit war damit auch mögliche Verknüpfen mit anderen Dokumenten das entscheidende Merkmal für seinen Durchbruch – dient es auch der Einbindung von Deklarationen über deren Darstellung und Software, die mit dem darstellenden Webbrowser, dem Dokument und anderen Webservices interagiert.
Issue Tracker
Ein aus der Softwareentwicklung stammendes Werkzeug, um Aspekte wie Fehler oder geplante Funktionalitäten einer Software zu verwalten. Neben einer Reihe von Nachrichten werden einer Angelegenheit auch Metadaten wie der Status, Bearbeitende oder andere Angelegenheiten mit Bezug zu dieser zugeordnet.
JPEG
Dieses komprimierende Dateiformat für Bilder beruht auf einem Algorithmus, der darauf abzielt, Verschiedenes zu homogenisieren und dabei beim Betrachtenden denselben Eindruck wie das Original zu vermitteln.
Markdown
Diese Markup-Sprache definiert eine Übermenge von HTML, die zusätzliche, vereinfachte Auszeichnungsmöglichkeiten bereit stellt. Für eine Hervorhebung kann beispielsweise Achtung, *giftig*! statt Achtung, <em>giftig</em>! verwendet werden, Hyperlinks werden einfacher mit zur [Webseite](https://web.site) als mit zur <a href="https://web.site">Webseite</a> notiert. Neben der besseren Lesbarkeit ist sie weniger anfällig für Tippfehler.
Markup
Mit diesem Begriff wird eine Zeichenfolge bezeichnet, die mit einer Markup-Sprache Informationen formuliert. Markup-Sprachen wurden ursprünglich verwendet, um Textdokumente mit Anweisungen für die Darstellung des Inhalts, wie für den Drucksatz gebraucht, zu erweitern. Nach und nach vollzog sich eine paradigmatische Verschiebung dahingehend, dem Text strukturelle Informationen beizufügen wie die Bezeichnung als Überschrift statt der Angabe einer konkreten Druckgröße. Markup-Sprachen werden mittlerweile verwendet, um verschiedenartige Informationen zu beschreiben (vgl. METS), der Begriff Markup wird in der Regel aber auf Texte bezogen.
Metadaten
Daten, die andere Daten beschreiben, wie zum Beispiele Schlagworte, die dargestellte Inhalte eines Bildes bezeichnen, werden Metadaten genannt.
METS
Der auf XML basierende Metadata Encoding and Transmission Standard wird von der Library of Congress zur Beschreibung digitaler Objekte, die von Bibliotheken gesammelt werden, entwickelt. Neben einer Sammlung dem Objekt zugehöriger Dateien (Digitalisate, Transkriptionen, …) sind in der Regel mit MODS kodierte, deskriptive Metadaten enthalten.
MODS
Das Metadata Object Description Schema basiert ebenfalls auf XML und wird von der Library of Congress herausgegeben. Mit ihm werden bibliographische Informationen kodiert, vor allem um einheitlich Daten für Kataloganwendungen bereit zu stellen.
OCR
Optical Character Recognition bezeichnet Verfahren, die sich darum bemühen die Textzeichen, die in Digitalisaten festgehalten sind, zu erkennen und in Textsequenzen gemäß einer Zeichenkodierung zu übertragen, die von Computern verarbeitet werden können.
PDF
Das Portable Document Format ist ein Dateiformat, das gut für den Austausch zwischen Anwendungen zur Erstellung und zur materiellen Reproduktion von gedruckten Dokumenten geeignet ist. Für die Archivierung von Druckvorlagen sollte das speziellere PDF/A verwendet werden.
proprietär
Im Gegensatz zu offener Software beziehungsweise offenen Standards sind von proprietären der Quellcode respektive deren Spezifikation nicht für alle Interessierten offen zugänglich. Zum einen verhindert dies die Möglichkeit, für den eigenen Gebrauch Anpassungen vornehmen zu können und hinsichtlich einer langfristigen Nutzung besteht eine Abhängigkeit von den die Rechte haltenden Entitäten.
Routine
Siehe Algorithmus.
Schema
In der EDV werden Schemata dazu verwendet, präskriptiv-normative Aussagen über die Struktur (also Beziehungen zwischen), die Typen (wie natürliche Zahlen, Zeichenfolgen, Mengen anderer Typen) und womöglich weitergehende Regeln (z.B. Maximalwerte, Muster für Zeichenketten) über Daten zu formulieren. Zu bedenken gilt, dass Schemata zunächst einmal notwendig sind, da eine Software Vorgaben braucht, wie Daten zu verarbeiten, zu speichern und auszugeben sind. Das Strukturieren von Informationen zum Erkenntnisgewinn ist eine andere Angelegenheit.
Semantic Web

Unter Semantic Web wird ein Konzept, eine Reihe in diesem Sinne formulierter Standards und Webservices verstanden, die analog zum World Wide Web als Netzwerk von Dokumenten, ein Netzwerk von Daten beschreiben.

Im Kern geht es darum, Aussagen als sogenannte Tripel – bestehend aus Subjekt, Prädikat und Objekt – zu formulieren, die möglichen Aussagen in Ontologien zu spezifizieren und Abfrageschnittstellen bereit zu stellen. Entitäten als Subjekt/Objekt werden in der Regel und Prädikate zwingend durch (URIs ähnlichen) Internationalized Resource Identifier (IRI) und nicht durch Namen angegeben.

In den Aussagen |Friedrichshain| |ist ein| |Stadtpark| und |Friedrichshain| |ist ein| |Stadtteil| sind so für das verarbeitende System das mit F. gemeinte unterscheidbar. Eine adäquate Ontologie erlaubt für beide F. die Aussage, in Berlin zu liegen, für erstere aber nicht, eine Bürgermeisterin zu haben. Tripel selbst sind durch IRIs identifizierbar und somit können sie selbst Teil einer Aussage sein. In der Ontologie Wikidatas sind zum Beispiel die AutorInnen der Namen botanischer Taxone in der Aussage über die Aussage, die den Bezug zwischen Taxon und einem wissenschaftlichen Namen formuliert, angegeben.

Von einem Umfang der Vernetzung eines Semantic Webs der dem des World Wild Webs nahe kommt, kann noch lange keine Rede sein. Dem steht unter anderem die Herausforderung, Wissen universell modellieren zu können, entgegen. Für domänenspezifische(s) Wissen(smodelle) und einen Ansatz, Verknüpfungspunkte (auch über Domänen hinweg) bereit zu stellen sind Paradigmen und Standards jedoch sehr geeignet.

Einen guten Überblick zum konzeptionell zentralen Resource Description Framework bietet [W3C2014].

Server
Geräte und Software, die Ressourcen bereit stellen, die von Clients abgerufen werden, werden Server genannt. Im World Wide Web sind dies Webserver.
TEI
Die Text Encoding Initiative wird im Kapitel Die Auszeichnung des Volltextes besprochen.
Unicode
Unicode ist ein Satz von Standards, der darauf abzielt alle bedeutungstragenden Zeichen, die die Menschheit in Schriftsystemen hervorgebracht hat und hervorbringen wird, zu kodieren. Frühere Zeichensätze wie ASCII oder ISO 8859-1 waren auf regionale Systeme wie das englische oder allgemein solche lateinischer Herkunft begrenzt. Aber auch letztere waren für die Phänomene in historischen, deutschsprachigen Drucken nicht ausreichend.
URI
Ein Uniform Resource Identifier ist ein eindeutiger Bezeichner einer Ressource.
URL
Ein Uniform Resource Locator ist eine URI, die sogleich auch die Informationen bereitstellt, wie eine Ressource über ein Rechner-Netzwerk zu beziehen ist.
Webanwendung
Eine Webanwendung wird in der Regel von einem Webserver bezogen und in einem Webbrowser ausgeführt. In einem HTML-Dokument sind dazu Programme eingebettet oder referenziert, die das Dokument, also das den Benutzenden Angezeigte, verändern, Eingaben lesen und mit Webservices kommunizieren können. Diese Programme sind meist in der Sprache Javascript geschrieben, in den nächsten Jahren wird WebAssembly als „Programmformat“, das von anderen Programmiersprachen übersetzt wurde, deutlich an Bedeutung gewinnen.
Webservice
Ein Webservice ist eine Software, die mit anderer über das HyperText Transfer Protocol kommuniziert, also eine API bereit stellt. Der Vorteil liegt für beide Seiten darin, gut etablierte Standards und Programmbibliotheken für die Kommunikation nutzen zu können.
Wikidata
Die Semantic Web-Datenbank Wikidata wird ebenso wie die Web-Enzyklopädie Wikipedia von der Wikimedia Foundation getragen und steht ebenso grundsätzlich für alle Menschen und Maschinen zur aktiven wie passiven Nutzung offen.
World Wide Web
Das World Wide Web basiert auf einer Reihe von Standards wie dem HyperText Transfer Protocol zur Übertragung von HTML-Dokumenten und Daten in anderen Formaten. Materiell könnte es beschrieben werden als die Gesamtheit aller Webserver, die für jeden Webclient erreichbar sind.
XML
Die in [W3C2006] standardisierte Extensible Markup Language erlaubt das Definieren von Markup-Sprachen, deren Spezifika in Schemata festgelegt sind, für domänenspezifische Semantiken. Es wurden sogar Programmiersprachen auf dieser Basis entworfen, eher ein Ausdruck davon, mit dem Hammer in der Hand eine Welt voller Nägel zu sehen, als denn eine gute Idee. Grundlegende Konzepte und Begriffe XMLs werden im Kapitel Erschließung erläutert.
Zeichenkodierung
Mittels Zeichenkodierungen werden in der EDV Textzeichen Zahlenwerten zugeordnet, die von Geräten verarbeitet, übertragen und gespeichert werden können. Ab den 1970ern war ASCII, das sieben Bit lange Zahlen zur Abbildung nutzte, üblich. Ab den 1990ern wurden regional und zweckbezogen verschiedene Kodierungen in acht Bit langen Zahlen üblich, seit der ersten Dekade des 21. Jahrhunderts setzen sich Unicode-Kodierungen mit variablen, mindestens acht Bit langen Abbildungen durch.

Fußnoten

[1]Das ist ein Ideal, tatsächlich führen marktübliche Prozessoren auch Anweisungen aus, deren Ausführungsbedingungen noch nicht bekannt sind.