4. Digitalisierung¶
4.1. Überblick¶
Die Praxisregeln „Digitalisierung“ schreiben im Abschnitt 3.2 technische Parameter für die Erstellung von „Master-Digitalisaten“ vor, um „die Qualität des Bildes, seine Langzeitverfügbarkeit und Interoperabilität“1 zu gewährleisten. Der digitale Master meint, dass diese Scanergebnisse als Grundlage für weitere Derivate2 dienen.
Als Mindestauflösung für das Scannen soll eine gewählt werden, die eine Reproduktion in der Größe des Originals ermöglicht. Für Bücher und andere Medien, die mit dem bloßen Auge betrachtet werden sollen, werden 300 dpi3 vorgeschrieben. Damit sind Quellen, deren kleinste Zeichen nicht kleiner als 1,5 mm sind, gut lesbar. Die Praxisregeln bemerken, dass mit einer 50-Megapixel-Kamera in dieser Auflösung Aufnahmen bis zum Format DIN A2 möglich sind. Am Markt sind mittlerweile Sensoren mit 250 Megapixeln verfügbar4, die eine hinreichende Aufnahme von Plänen mit einer Größe bis zum Doppelten des Formats DIN A0 ermöglichen sollten.5
Der Aufnahmebereich zweidimensionaler Quellen soll größer als die Vorlage selbst sein, denn „[n]ur so ist erkennbar, dass nichts von der Vorlage abgeschnitten wurde.“6
Als Farbtiefe wird eine Speicherung mit 8 Bit je Farbkanal7 empfohlen, obwohl die Aufnahmetechniken mit bis zum Doppelten operieren. Begründet wird dies damit, dass es keine Ausgabetechniken gibt, die ‚breitere‘ Farbinformationen als besagte 8 Bit je Kanal unterstützen. Für den in Frage stehenden Schwarz-Weiß-Druck wäre eine genauere Speicherung sicherlich überdimensioniert. Da aber auch andere Verarbeitungen als die schlichte Ausgabe denkbar sind – Farbanalysen etwa – und auch diese Begrenzung in der Ausgabe eines Tages hinfällig sein könnte, trägt das Argument für farbige Quellen im Grunde nicht.
Als mögliche Dateiformate zur Speicherung der Digitalisate werden unkomprimiertes TIFF, TIFF-LZW8 oder verlustfreies JPEG2000 benannt. Das letztgenannte Format ist jedoch nicht vollständig lizenzfrei und einer Nutzung müsste eine rechtliche Klärung vorausgehen.
In den Praxisregeln finden sich im Abschnitt „3.2.1.3 Digitaler Aufnahmeablauf“ detailliertere Hinweise zum Digitalisierungsvorgang. Vorgaben für weitere Medien wie Microfiche, dreidimensionale Objekte oder Tonaufnahmen werden hier nicht betrachtet, da diese für das Vorhaben dieser Arbeit keine Bedeutung haben.
Umfangreiche Digitalisierungsvorhaben sind in den forschenden Gliederungen akademischer Institutionen in der Regel personell nicht leistbar. Es lohnt sich in jedem Fall mit den Institutionen zugehörigen oder die Quellen vorhaltenden Bibliotheken9 in Kontakt zu treten und zu klären, ob diese selbst eine Digitalisierung der Quellen bereits geplant haben oder übernehmen können. Dies ist insbesondere attraktiv, da in aller Regel diese Institutionen selbst Infrastrukturen zur Bereitstellung der Digitalisate betreiben und diese in ihren Katalogen verknüpfen können. Zumal entsprechende Kompetenzen und Standards dort institutionell verankert und den MitarbeiterInnen geläufig sind. Eine weitere Option ist das Beauftragen eines externen Dienstleisters. Hierbei sollte unbedingt auf die Formulierung eines detaillierten Lastenheftes geachtet und im besten Fall ein Probelauf mit einer divers ausgewählten Teilmenge der Quellen vereinbart werden, dessen Ergebnisse praktisch für die Folgenutzungen (z.B. OCR oder Reproduktionen) getestet werden. Zu den vereinbarten Leistungen sollte auch die Bereitstellung von Prüfsummen der Dateien gehören, die auf einem anderen Wege als diese selbst übertragen werden. So ist eine Integritätsprüfung der empfangenen Daten möglich, die auf dem Transportmedium verändert worden sein könnten. Dies ist bei den großen Anbietern in Deutschland bisher nicht üblich. Auch sollte der Aufwand einer Vollständigkeitsprüfung – gerade bei mehreren Teillieferungen – nicht unterschätzt werden.10
4.2. Die Digitalisierung der Quelle¶
Da eine Ausleihe der „Holzgewächse des Friedrichshains“ in der Berliner Stadtbibliothek nicht möglich ist, im Lesesaal der Berlin-Studien jedoch ein Buchscanner verfügbar ist, wurde die Quelle dort digitalisiert. Bei dem Scanner handelt es sich um einen Auflichtscanner Zeta HX-4898.01 des Herstellers Zeutschel mit der Seriennummer 57415. Leider bietet das Gerät keine Möglichkeit auch nur einen der im vorigen Abschnitt benannten technischen Parameter einzustellen.
Als günstig erwies sich das Benutzen einer Maßstabs- und Farbkarte, um auf der Voransicht des Gerätes Verzerrungen leicht zu erkennen und einen Scan gegebenenfalls zu wiederholen. Etwa ein Drittel der Seiten wurde bis zu fünf mal gescannt, um ein – der Voransicht nach zu urteilenden – akzeptables Ergebnis zu erreichen. Sowohl das automatisierte Zerteilen von Aufnahmen in Buchseiten als auch das automatisierte Beschneiden durch die Scansoftware laufen der Vorgabe „über den Rand zu scannen“ zuwider. Als Ausgabeformat ist lediglich das Portable Document Format möglich, das ein Containerformat für verschiedene Medieninhalte wie Text, Bilder und Formulare ist – obwohl das Gerät nur Bilddaten produziert. Aspekte zur Speicherung dieser lassen sich am Gerät nicht festlegen. Bei einer Begutachtung der in den Ausgabedateien enthaltenen Bilddaten stellte sich heraus, dass sowohl die Mindestauflösung von 300 dpi und die Farbtiefe von 8 Bit je Farbkanal eingehalten wurden. Jedoch wird als Dateiformat JPEG verwendet, das eben auf einen Informationsverlust ausgelegt ist, der nicht erwünscht ist. Zumal die Verhältnisse zur Originaldateigröße mit Werten von unter fünf Prozentpunkten angegeben werden, weshalb ein recht hoher Informationsverlust angenommen werden kann. Für eine Bildschirmansicht stellt sich das als ausreichend dar, für die im Vorhaben noch durchzuführende Optical Character Recognition einer Frakturtype wird sich zeigen, wie nutzbar diese Daten sind.
Fußnoten
[1] | [DFG2016] |
[2] | Also veränderte Ableitungen vom Master. So sind beispielsweise hochauflösende Digitalisate aus archivarischer Perspektive, für etwaige Reprint-Vorhaben und für die Optical Character Recognition wünschenswert, während für Ansichten in Webanwendungen niedriger auflösende Images eine schnellere Auslieferung gewährleisten. Ein nicht-bildliches Derivat wird die im übernächsten Kapitel erörterte Transkription sein. |
[3] | dots per inch geben die Anzahl der Zeilen und Reihen des Rasters, in das eine optische Aufnahme diskretisiert wird, je Inch (dt.: Zoll) an. Beim Scannen mit 300 dpi entsteht also ein Abbild mit etwas mehr als 118 Bildpunkten pro Reihe und Zeile je Zentimeter respektive circa 13.924 Bildpunkten je Quadratzentimeter. |
[4] | vgl. http://global.canon/en/news/2015/sep07e.html |
[5] | Mit einer 50 Megapixel-Aufnahme kann eine Fläche von etwa 3.584 cm² bei 300 dpi aufgenommen werden, bei 250 Megapixeln sind es bereits 17.921 cm². |
[6] | [DFG2016], Abschnitt 3.2.1.3 |
[7] | Mit den üblichen Kanälen Rot, Grün und Blau sind also 256³ = 16.777.216 verschiedene Farben diskretisierbar. |
[8] | Dabei werden die gespeicherten Daten (die Bitsequenz) komprimiert, nicht die Bildinformationen wie zum Beispiel JPEG es auf der Grundlage wahrnehmungspsychologischer Effekte macht und dabei die erfassten Informationen verfremdet. |
[9] | respektive auch den Archiven und Museen |
[10] | vgl. auch [DFG2016], Abschnitt 4 |