12. Glossar¶
Die Erläuterungen in diesem Glossar sind keineswegs erschöpfend für die Begriffe an sich. Sie sollen in erster Linie die im Zusammenhang dieser Arbeit relevanten Bestimmungen, Inhalte und Bezüge klar stellen.
- Algorithmus
- Eine endliche Reihe von Regeln, die ein Problem löst. Um Computer Algorithmen ausführen zu lassen, werden üblicherweise Konstrukte verschiedener Abstraktionsarten (meist imperativ, deklarativ, funktional oder objektorientiert) von Menschen in Programmier- und Deklarationssprachen formuliert, die dann letztlich von den Recheneinheiten des Computers – der Definition einer Turingmaschine folgend – imperativ abgearbeitet werden.1 Die Sachverhalte des Problems werden durch die Eingabedaten bestimmt, die Ausgabedaten repräsentieren die Lösung.
- Annotation
- Im Editionswesen fügen Annotationen einem Text zusätzliche Informationen hinzu. In der EDV erfolgt das analog in Bezug auf Daten. Mit TEI etwa werden digitalen Texten Informationen über deren originäre Erscheinung und auch editorische hinzugefügt, in diesem Fall ist das identisch mit dem Auszeichnen qua Markup-Sprache.
- API
- Mit einem Application Programming Interface stellt eine Software die Nutzung der eigenen Funktionalität für andere Software bereit. Dies wird auf verschiedene Weisen realisiert, Webanwendungen nutzen meist ReST-Schnittstellen, die von Webservices bereit gestellt werden.
- Artefakt
- Im Kontext des wissenschaftlichen Arbeitens mit digitalen Werkzeugen sind Ausgabedaten gemeint, die als Ergebnis einer algorithmischen Verarbeitung von Eingabedaten entstehen. In der Gesamtheit werden diese als Forschungsdaten bezeichnet. Dass Artefakte in der wissenschaftlichen Arbeit entstehen und welche diese eigentlich sind, wird häufig kaum reflektiert. Über die Relevanz der langfristigen Speicherung sämtlicher Artefakte herrscht in der wissenschaftlichen Community noch keine Einigkeit. Auf der einen Seite gibt es den Standpunkt, dass lediglich die ursprünglichen Daten (hier die Digitalisate) und Veröffentlichungen vorgehalten werden sollen. Demgegenüber steht die Forderung, sämtliche Artefakte inklusive des Quellcodes bei der Verarbeitung verwendeter Software zu archivieren, um eine minutiöse Reproduzierbarkeit der Forschungsergebnisse zu gewährleisten und wissenschaftshistorische Einsichten zu ermöglichen.
- Baum
- In der Datenverarbeitung ist dies ein Datentyp in der Struktur eines gerichteten Graphen, bei dem auf alle Knoten von genau einem anderen gezeigt wird, mit der Ausnahme des Wurzelknotens, auf den kein anderer zeigt.
- CAD
- Computer Aided Design bezeichnet Software, die die Erstellung von Modellen und Planungsunterlagen für Gestaltungen verschiedenster Art erlaubt.
- Client
- Ein Client bezeichnet ein Gerät oder eine Software, für deren Funktionen auf Ressourcen zugegriffen wird, die ein Server bereit stellt. Webbrowser, die Webseiten abrufen und darstellen, sind zum Beispiel solche.
- DDC
- Die DDC wurde zur inhaltlichen Kategorisierung von Bibliotheksbeständen durch Melvil Dewey entwickelt und geht
in seiner Struktur auf Gottfried Wilhelm Leibniz zurück. Die Kategorieebenen sind durch Sequenzen dezimaler
Ziffern abgebildet, wobei je Ebene also zehn Kategorien möglich sind. Die Klassifikation
715
zeigt also in erster Ebene auf „Künste und Unterhaltung“ (7xx
), folgend auf „Landschaftsgestaltung, Raumplanung“ (71x
) und letztlich auf „Gehölze als Gestaltungselemente“ (715
). Die deutschsprachige Plattform WebDewey Search bietet neben einem Browser durch die Kategorien auch die Möglichkeit, nach Beständen einer Kategorie der Deutschen Nationalbibliothek und weiterer Bibliotheken zu suchen. - Digitalisat
- Eine digitale Repräsentation der meist nur wesentlichen Aspekte eines Objektes in der realen Welt, wie das Abbilden von Farbwerten in einer zweidimensionalen Matrix, um ein Gemälde oder eine Buchseite wiederzugeben oder eine Reihe von regelmäßig gesampelten Frequenzwerten, die die Wiedergabe einer Phonographenwalze festhält.
- EDV
- Der Begriff Elektronische Datenverarbeitung fasst alle Verfahren zusammen, bei denen Daten mit Hilfe mikroelektronischer Geräte gelesen, übertragen, transformiert, gespeichert und ausgegeben werden.
- Entität
- Entitäten sind voneinander abgrenzbare Sachen, konkrete wie abstrakte. Der Ortsteil Friedrichshain und der Park mit demselben Namen sind beispielsweise konkrete, die Kategorien Park und Landschaftspark sind Beispiele für abstrakte Entitäten. Im Kontext des Semantic Web werden Entitäten in Tripel-Aussagen als Subjekte und Objekte verwendet.
- Faksimile
- Eine möglichst originalgetreue Wiedergabe von Dokumenten.
- Graph
- In der EDV ist ein Graph eine logische Datenstruktur, in der Daten vor allem in Beziehungen zueinander gebracht werden. Wie in der Mathematik sind Knoten, die zumeist Entitäten abbilden, durch Kanten miteinander assoziiert. Beide Elemente werden durch Eigenschaften beschrieben.
- HTML
- Die HyperText Markup Language ist eine Markup-Sprache, die das Rückgrat von Webseiten und -anwendungen bildet. Neben der Auszeichnung von Texten – in seiner Entstehungszeit war damit auch mögliche Verknüpfen mit anderen Dokumenten das entscheidende Merkmal für seinen Durchbruch – dient es auch der Einbindung von Deklarationen über deren Darstellung und Software, die mit dem darstellenden Webbrowser, dem Dokument und anderen Webservices interagiert.
- Issue Tracker
- Ein aus der Softwareentwicklung stammendes Werkzeug, um Aspekte wie Fehler oder geplante Funktionalitäten einer Software zu verwalten. Neben einer Reihe von Nachrichten werden einer Angelegenheit auch Metadaten wie der Status, Bearbeitende oder andere Angelegenheiten mit Bezug zu dieser zugeordnet.
- JPEG
- Dieses komprimierende Dateiformat für Bilder beruht auf einem Algorithmus, der darauf abzielt, Verschiedenes zu homogenisieren und dabei beim Betrachtenden denselben Eindruck wie das Original zu vermitteln.
- Markdown
- Diese Markup-Sprache definiert eine Übermenge von HTML, die zusätzliche, vereinfachte
Auszeichnungsmöglichkeiten bereit stellt. Für eine Hervorhebung kann beispielsweise
Achtung, *giftig*!
stattAchtung, <em>giftig</em>!
verwendet werden, Hyperlinks werden einfacher mitzur [Webseite](https://web.site)
als mitzur <a href="https://web.site">Webseite</a>
notiert. Neben der besseren Lesbarkeit ist sie weniger anfällig für Tippfehler. - Markup
- Mit diesem Begriff wird eine Zeichenfolge bezeichnet, die mit einer Markup-Sprache Informationen formuliert. Markup-Sprachen wurden ursprünglich verwendet, um Textdokumente mit Anweisungen für die Darstellung des Inhalts, wie für den Drucksatz gebraucht, zu erweitern. Nach und nach vollzog sich eine paradigmatische Verschiebung dahingehend, dem Text strukturelle Informationen beizufügen wie die Bezeichnung als Überschrift statt der Angabe einer konkreten Druckgröße. Markup-Sprachen werden mittlerweile verwendet, um verschiedenartige Informationen zu beschreiben (vgl. METS), der Begriff Markup wird in der Regel aber auf Texte bezogen.
- Metadaten
- Daten, die andere Daten beschreiben, wie zum Beispiele Schlagworte, die dargestellte Inhalte eines Bildes bezeichnen, werden Metadaten genannt.
- METS
- Der auf XML basierende Metadata Encoding and Transmission Standard wird von der Library of Congress zur Beschreibung digitaler Objekte, die von Bibliotheken gesammelt werden, entwickelt. Neben einer Sammlung dem Objekt zugehöriger Dateien (Digitalisate, Transkriptionen, …) sind in der Regel mit MODS kodierte, deskriptive Metadaten enthalten.
- MODS
- Das Metadata Object Description Schema basiert ebenfalls auf XML und wird von der Library of Congress herausgegeben. Mit ihm werden bibliographische Informationen kodiert, vor allem um einheitlich Daten für Kataloganwendungen bereit zu stellen.
- OCR
- Optical Character Recognition bezeichnet Verfahren, die sich darum bemühen die Textzeichen, die in Digitalisaten festgehalten sind, zu erkennen und in Textsequenzen gemäß einer Zeichenkodierung zu übertragen, die von Computern verarbeitet werden können.
- Das Portable Document Format ist ein Dateiformat, das gut für den Austausch zwischen Anwendungen zur Erstellung und zur materiellen Reproduktion von gedruckten Dokumenten geeignet ist. Für die Archivierung von Druckvorlagen sollte das speziellere PDF/A verwendet werden.
- proprietär
- Im Gegensatz zu offener Software beziehungsweise offenen Standards sind von proprietären der Quellcode respektive deren Spezifikation nicht für alle Interessierten offen zugänglich. Zum einen verhindert dies die Möglichkeit, für den eigenen Gebrauch Anpassungen vornehmen zu können und hinsichtlich einer langfristigen Nutzung besteht eine Abhängigkeit von den die Rechte haltenden Entitäten.
- Routine
- Siehe Algorithmus.
- Schema
- In der EDV werden Schemata dazu verwendet, präskriptiv-normative Aussagen über die Struktur (also Beziehungen zwischen), die Typen (wie natürliche Zahlen, Zeichenfolgen, Mengen anderer Typen) und womöglich weitergehende Regeln (z.B. Maximalwerte, Muster für Zeichenketten) über Daten zu formulieren. Zu bedenken gilt, dass Schemata zunächst einmal notwendig sind, da eine Software Vorgaben braucht, wie Daten zu verarbeiten, zu speichern und auszugeben sind. Das Strukturieren von Informationen zum Erkenntnisgewinn ist eine andere Angelegenheit.
- Semantic Web
Unter Semantic Web wird ein Konzept, eine Reihe in diesem Sinne formulierter Standards und Webservices verstanden, die analog zum World Wide Web als Netzwerk von Dokumenten, ein Netzwerk von Daten beschreiben.
Im Kern geht es darum, Aussagen als sogenannte Tripel – bestehend aus Subjekt, Prädikat und Objekt – zu formulieren, die möglichen Aussagen in Ontologien zu spezifizieren und Abfrageschnittstellen bereit zu stellen. Entitäten als Subjekt/Objekt werden in der Regel und Prädikate zwingend durch (URIs ähnlichen) Internationalized Resource Identifier (IRI) und nicht durch Namen angegeben.
In den Aussagen
|Friedrichshain| |ist ein| |Stadtpark|
und|Friedrichshain| |ist ein| |Stadtteil|
sind so für das verarbeitende System das mit F. gemeinte unterscheidbar. Eine adäquate Ontologie erlaubt für beide F. die Aussage, in Berlin zu liegen, für erstere aber nicht, eine Bürgermeisterin zu haben. Tripel selbst sind durch IRIs identifizierbar und somit können sie selbst Teil einer Aussage sein. In der Ontologie Wikidatas sind zum Beispiel die AutorInnen der Namen botanischer Taxone in der Aussage über die Aussage, die den Bezug zwischen Taxon und einem wissenschaftlichen Namen formuliert, angegeben.Von einem Umfang der Vernetzung eines Semantic Webs der dem des World Wild Webs nahe kommt, kann noch lange keine Rede sein. Dem steht unter anderem die Herausforderung, Wissen universell modellieren zu können, entgegen. Für domänenspezifische(s) Wissen(smodelle) und einen Ansatz, Verknüpfungspunkte (auch über Domänen hinweg) bereit zu stellen sind Paradigmen und Standards jedoch sehr geeignet.
Einen guten Überblick zum konzeptionell zentralen Resource Description Framework bietet [W3C2014].
- Server
- Geräte und Software, die Ressourcen bereit stellen, die von Clients abgerufen werden, werden Server genannt. Im World Wide Web sind dies Webserver.
- TEI
- Die Text Encoding Initiative wird im Kapitel Die Auszeichnung des Volltextes besprochen.
- Unicode
- Unicode ist ein Satz von Standards, der darauf abzielt alle bedeutungstragenden Zeichen, die die Menschheit in Schriftsystemen hervorgebracht hat und hervorbringen wird, zu kodieren. Frühere Zeichensätze wie ASCII oder ISO 8859-1 waren auf regionale Systeme wie das englische oder allgemein solche lateinischer Herkunft begrenzt. Aber auch letztere waren für die Phänomene in historischen, deutschsprachigen Drucken nicht ausreichend.
- URI
- Ein Uniform Resource Identifier ist ein eindeutiger Bezeichner einer Ressource.
- URL
- Ein Uniform Resource Locator ist eine URI, die sogleich auch die Informationen bereitstellt, wie eine Ressource über ein Rechner-Netzwerk zu beziehen ist.
- Webanwendung
- Eine Webanwendung wird in der Regel von einem Webserver bezogen und in einem Webbrowser ausgeführt. In einem HTML-Dokument sind dazu Programme eingebettet oder referenziert, die das Dokument, also das den Benutzenden Angezeigte, verändern, Eingaben lesen und mit Webservices kommunizieren können. Diese Programme sind meist in der Sprache Javascript geschrieben, in den nächsten Jahren wird WebAssembly als „Programmformat“, das von anderen Programmiersprachen übersetzt wurde, deutlich an Bedeutung gewinnen.
- Webservice
- Ein Webservice ist eine Software, die mit anderer über das HyperText Transfer Protocol kommuniziert, also eine API bereit stellt. Der Vorteil liegt für beide Seiten darin, gut etablierte Standards und Programmbibliotheken für die Kommunikation nutzen zu können.
- Wikidata
- Die Semantic Web-Datenbank Wikidata wird ebenso wie die Web-Enzyklopädie Wikipedia von der Wikimedia Foundation getragen und steht ebenso grundsätzlich für alle Menschen und Maschinen zur aktiven wie passiven Nutzung offen.
- World Wide Web
- Das World Wide Web basiert auf einer Reihe von Standards wie dem HyperText Transfer Protocol zur Übertragung von HTML-Dokumenten und Daten in anderen Formaten. Materiell könnte es beschrieben werden als die Gesamtheit aller Webserver, die für jeden Webclient erreichbar sind.
- XML
- Die in [W3C2006] standardisierte Extensible Markup Language erlaubt das Definieren von Markup-Sprachen, deren Spezifika in Schemata festgelegt sind, für domänenspezifische Semantiken. Es wurden sogar Programmiersprachen auf dieser Basis entworfen, eher ein Ausdruck davon, mit dem Hammer in der Hand eine Welt voller Nägel zu sehen, als denn eine gute Idee. Grundlegende Konzepte und Begriffe XMLs werden im Kapitel Erschließung erläutert.
- Zeichenkodierung
- Mittels Zeichenkodierungen werden in der EDV Textzeichen Zahlenwerten zugeordnet, die von Geräten verarbeitet, übertragen und gespeichert werden können. Ab den 1970ern war ASCII, das sieben Bit lange Zahlen zur Abbildung nutzte, üblich. Ab den 1990ern wurden regional und zweckbezogen verschiedene Kodierungen in acht Bit langen Zahlen üblich, seit der ersten Dekade des 21. Jahrhunderts setzen sich Unicode-Kodierungen mit variablen, mindestens acht Bit langen Abbildungen durch.
Fußnoten
[1] | Das ist ein Ideal, tatsächlich führen marktübliche Prozessoren auch Anweisungen aus, deren Ausführungsbedingungen noch nicht bekannt sind. |