Digitalisierung an der UB Heidelberg: Workflow und Technik
- Konzeption
- Digitalisierung
- Qualitätskontrolle / Aufbereitung
- Volltexterfassung
- Archivierung
- Präsentation, Benutzungsfunktionen
- Neues Modul: Annotationen und Kommentare
Konzeption
Gemäß den Prinzipien des Open Access ist die freie und nachhaltige Bereitstellung ihrer wertvollen Hand- und Druckschriftenbestände erklärtes Ziel der Universitätsbibliothek Heidelberg. Dabei werden bei der Digitalisierung und der Internetpräsentation die derzeit gültigen Standards, die auch in der aktuellen Fassung der „DFG-Praxisregeln Digitalisierung“ dokumentiert sind, eingehalten.
Um einen reibungslosen und übersichtlichen Workflow zu gewährleisten, setzt die UB Heidelberg das selbstentwickelte Programm DWork – Heidelberger Digitalisierungsworkflow für die Arbeitsabläufe bei der Digitalisierung und der Webpräsentation ein. Über eine Web-Applikation wird einerseits die Generierung der Präsentationen, andererseits das Archivierungssystem der Scans und der Metadaten gesteuert. Dabei unterstützt „DWork” sämtliche Einzelschritte des Workflows von der Metadatenerstellung bis hin zu den Arbeitsschritten im hauseigenen Digitalisierungszentrum und automatisiert sämtliche Arbeitsschritte einschließlich der Erstellung der Webpräsentation des jeweiligen Werks.
Digitalisierung
Zur größtmöglichen Schonung der wertvollen und z.T. sehr fragilen Objekte und zur Erzielung maximaler Bearbeitungseffizienz und Bildqualität erfolgt die Digitalisierung wertvoller Codices, wertvoller Drucke oder großformatiger Tafelwerke auf dem so genannten Buchtisch „Grazer Modell“. Der speziell zur Digitalisierung von Handschriften entwickelte Kameratisch ermöglicht durch seine Konstruktion eine kontaktlose Direktdigitalisierung fragiler Objekte. Das Buch wird mit Hilfe eines Laserstrahls exakt positioniert, das aufgeschlagene Blatt jeweils durch den milden Sog einer Unterdruckeinrichtung fixiert. Durch eine spezielle Konstruktion ist dabei das Objektiv der Kamera im rechten Winkel auf das Blatt ausgerichtet, so dass auch Verzerrungen minimiert werden können. Das Buch muss bei diesem Vorgang nicht vollständig aufgeschlagen werden. Aufgrund der Konstruktion mit über dem Buch schwebender Kamera genügt ein minimaler Öffnungswinkel von etwa 90 Grad. Entsprechend werden die Seiten einzeln aufgenommen, und zwar jeweils zunächst alle Recto- und anschließend alle Verso-Seiten, so dass das Buch nur einmal – nämlich beim Wechsel von recto zu verso – gedreht werden muss. Für die Aufnahmen wird eine Spiegelreflex-Digitalkamera, Typ CANON EOS 5DS, mit einer Auflösung von ca. 51 Mio Pixel und einer Farbtiefe von 24 Bit verwendet. Die digitalen Images werden per Firewire-Schnittstelle unmittelbar zu einem angeschlossenen PC übertragen und ohne lokale Zwischenspeicherung auf dem Festplattensystem eines Fileservers abgelegt. Dies geschieht im kameraspezifischen Rohdatenformat, um Detailverluste, Farbverfälschungen o.ä. zu vermeiden und gleichzeitig die höchstmögliche Übertragungsgeschwindigkeit zu erzielen.
Für weniger empfindliches Material werden im Digitalisierungszentrum derzeit 2 Zeutschel-Aufsichts-Buchscanner eingesetzt: für große Vorlagen bis A0 ein OS HQ und für kleinere Vorlagen bis A2 ein OS Q2 (Auflösung/Farbtiefe jeweils 300 dpi/24 Bit). Diese ermöglichen die Digitalisierung von Doppelseiten, die noch während der Scanphase automatisch geschnitten werden.
Diese Geräteausstattung wurde im Januar 2011 um einen Qidenus Scanroboter RBS Pro TT und im Juli 2013 um einen Qidenus Scanroboter RBS 3.0 ergänzt. Im Frühjahr 2016 wurde zusätzlich ein Cobra A1 V-Scan der Firma Microbox sowie ein Gerät zur Digitalisierung von Wasserzeichen in Betrieb genommen.
Qualitätskontrolle der Digitalisate und Aufbereitung für die Internetpräsentation
Nach der Digitalisierung werden die Images in das dem technischen Standard für die Archivierung entsprechende TIFF-Format umgewandelt und mittels professioneller Bildbearbeitungssoftware (Adobe Photoshop) so nachbearbeitet, dass Farb-, Helligkeits-, Kontrast- und Schärfegrad weitest möglich dem Original entsprechen. Die am Grazer Buchtisch getrennt aufgenommenen und zunächst in unterschiedlichen Verzeichnissen gespeicherten Recto- und Verso-Seiten werden maschinell umbenannt und ineinander sortiert.
Zur Kontrolle von Vollständigkeit und Qualität der Digitalisate werden die Images des gesamten Werks am Bildschirm durchgeblättert und überprüft. Fehlende oder den Qualitätsansprüchen nicht genügende Seiten werden unmittelbar nachdigitalisiert und eingefügt.
Aus den digitalen Seiten wird unter Verwendung des „Metadata Encoding and Transmission Standard“ (METS) das Präsentationsmodell eines virtuellen Buches erstellt. Dazu ist es notwendig, bibliographische Metadaten anzulegen und die Buchstruktur abzubilden. Beides geschieht mit Hilfe des Programms DWork – Heidelberger Digitalisierungsworkflow, durch welches der gesamte Produktionsprozess automatisiert ist.
Dieser Workflow beginnt mit dem Anlegen eines Projektnamens, wodurch der Name der XML-Datei festgelegt wird sowie die notwendigen Verzeichnisse auf dem Server erzeugt werden. Im Hintergrund werden in einer MySQL-Datenbank die Metadaten zu den digitalen Büchern verwaltet, in der mit diesem Schritt die Metadatenfelder für den neuen Projektnamen generiert werden. Nun werden die bibliographischen Daten des jeweiligen Werkes mithilfe des Katkey direkt aus dem lokalen Bibliothekssystem abgerufen. Anschließend erfolgt die Eingabe der Strukturdaten: Kapitel- und Unterkapiteleinträge (Bezeichnung und Seitennummer des Kapitelanfangs) werden in ein freies Textfeld in einer vorgegebenen, einfachen Syntax eingegeben. Dabei ist es auch möglich, dass eine Seite mehreren Kapitel zugeordnet wird, was immer dann wichtig ist, wenn auf der letzten Seite eines Kapitels das folgende Kapitel beginnt.
Im nächsten Schritt werden die beim Scannen erzeugten Dateien in die Datenbank eingelesen, wobei in der Regel der bereits vorher bei der Umbenennung festgelegte Dateiname für die Bezeichnung der Seite übernommen wird. Hier sind sowohl die Seiten- als auch die für Handschriften und ältere Drucke typische Blattbezeichnung möglich, wodurch in der Webpräsentation die Originalzählung angezeigt und auch als Eingabemöglichkeit für den „Sprung zu Seite“ verwendet werden kann. Die Dateibenennung kann an dieser Stelle jedoch auch nach Wunsch geändert werden, z.B. wenn es sich um im Original nicht gezählte Seiten oder Seiten mit Sonderzählung handelt. Es folgen die Image-Konvertierungen (Umwandlung von TIFF in JPG, für jede Seite Generierung von 5 JPG-Derivaten unterschiedlicher Auflösung) und die OCR-Verarbeitung, die ebenfalls über das Workflow-Programm gesteuert werden.
Über eine Exportfunktion werden abschließend die für die Präsentation errechneten Images, die OCR-Daten und die Metadaten im METS-Format exportiert und an das auf dem Webserver der UB liegende Präsentationssystem übergeben sowie das Kopieren der Dateien zur Archivierung angestoßen.
Auf der Datenebene existiert am Ende dieses Prozesses eine auch für die langfristige elektronische Archivierung geeignete XML-Datei. Die bibliographischen Metadaten werden darin unter Anwendung von METS gespeichert. Neben diesen reinen Erschließungs-Metadaten, die im „Metadata Object Description Schema“ (MODS) eingebettet werden, enthält die XML-Datei auch die Strukturdaten für die Navigation in der Handschrift (Abfolge der Seiten sowie die Verknüpfung des manuell erstellten Inhaltsverzeichnisses mit den einzelnen Images). Zum Datenaustausch per OAI-Schnittstelle stehen die ebenfalls in das METS-Schema eingebettete Dublin Core Beschreibungsdaten zur Verfügung. Da in den Dateien selbst nur reiner ASCII-Text gespeichert ist, haben sie einen nur sehr geringen Speicherbedarf von wenigen kB und enthalten zudem keinerlei proprietäre Formatierungen. Ein weiterer Vorteil von XML besteht darin, dass auch zukünftige Änderungen, z.B. an der Definition des Erscheinungsbildes, sehr leicht umzusetzen sind.
Jedes Werk erhält eine zitierfähige Adressierung in Form einer persistenten URL (PURL) und eines Uniform Ressource Name (URN) und auch jede Einzelseite ist eindeutig und nachhaltig referenzierbar. Die Metadaten können per OAI-Schnittstelle abgerufen werden und enthalten alle zur Nutzung durch den DFG-Viewer notwendigen Angaben.
Volltexterfassung mit OCR
Bei der digitalen Präsentation von Druckschriften ist eine Volltextsuche implementiert. Die Bilddateien vor allem der mit Antiqua-Schriften gedruckten Texte werden automatisch mit professioneller OCR-Software (Abbyy-FineReader 11) in der Extended Platform Support (EPS)-Variante auf einem Linux-Server bearbeitet. Die Images werden vor der OCR-Verarbeitung – ggf. inkl. Korrektur der Perspektive – ausgerichtet. Zur Bestimmung der Perspektive wird die diskrete Radon-Transformation des Scans herangezogen. Das XML-Ausgabeformat enthält neben dem erkannten Text die Koordinaten für die Kennzeichnung der in der Volltextsuche gefundenen Textstellen in der Präsentation. Das Ergebnis dieser Bearbeitung sind Volltextdateien, deren Inhalt in einen Index für die Open-Source Suchengine SOLR eingespielt wird. Somit stehen die Textinhalte für eine Volltextrecherche zur Verfügung. Diese soll eine zentrale Stelle innerhalb der WWW-Präsentation einnehmen. Auch wenn mit diesem Verfahren („schmutziges OCR“) keine Vollständigkeit des Suchergebnisses garantiert werden kann und der Volltext nur zur Positivsuche dienen kann, so stellt es doch gegenüber der reinen Imagepräsentation einen großen Mehrwert dar. Deshalb wird bei der Trefferanzeige in der Volltextsuche nicht nur das Image mit „Highlighting“ der Fundstelle angeboten, sondern auch der OCR-Text selbst. So kann der Wissenschaftler die gefundene Textpassage selbst mit dem Image vergleichen. Zudem besteht so die Möglichkeit, bequem Zitate mit Copy & Paste in die eigenen Texte zu übernehmen. Über einen kurzen Informationstext wird der Nutzer über das eingesetzte Verfahren informiert.
Archivierung
Über das DWork-Archivmodul werden die Original-Scandateien, die Metadaten im METS-XML-Format und die Ausgaben der OCR-Verarbeitung im BagIt-Format gepackt und archiviert. Zu jeder Datei wird hierbei eine Prüfsumme gebildet, bzw. die vorher bereits im ermittelte Prüfsumme validiert und übernommen. An der UB Heidelberg werden die Archivdaten redundant vorgehalten. Neben der Speicherung auf Festplattensystemen wird in den TSM-Verbund der baden-württembergischen Universitätsrechenzentren archiviert. Die Prüfsummen und die Verfügbarkeit der Bandsicherungen werden regemäßig überwacht.
Eine Ablieferung eines Digital Master an die Deutsche Nationalbibliothek ist vorgesehen und soll umgesetzt werden, sobald die dortigen Systeme für den Routinebetrieb zur Verfügung stehen.
Digitale Präsentation der Bestände und Benutzungsfunktionen
Innerhalb des Webauftritts der UB Heidelberg erhält der Besucher freien Zutritt zu den „digitalen Bücherregalen“, aus denen er einzelne Bücher zur genaueren Betrachtung „herausnehmen“ kann. Die Auswahl kann über thematisch geordnete Listen geschehen bzw. über die Übersicht der entsprechenden Drittmittelprojekte, oder man kann sich – wie z.B. im Falle der deutschsprachigen Palatina-Handschriften – durch eine nach Signaturen der Codices geordnete Übersicht, die neben der kurzen inhaltlichen Benennung eine exemplarische Text- oder Bildseite, die als bildhafter Repräsentant des Codices dient, leiten lassen.
Hinter dem Link zur Hand- oder Druckschrift liegt die Bildschirmpräsentation eines Buches, das auf einfache Weise nutzbar ist. So ist es möglich, eine beliebige Seiten- bzw. Blattzahl direkt anzusteuern, an den Anfang oder das Ende des Dokuments zu springen, aber auch seitenweise vor- bzw. zurückzublättern. Zusätzlich wird jede digitale Reproduktion mit weiteren Informationen und komfortablen Navigationsmöglichkeiten angereichert. Ausgehend von einer Werkeinstiegsseite, die neben den bibliographischen Informationen wie Signatur, Autor, Titel, Herstellungsort und Datierung, auch das Inhaltsverzeichnis mit einzeln anwählbaren Kapitelüberschriften enthält, kann die Handschrift oder der Druck gezielt an einer bestimmten Textstelle „geöffnet“ werden. Über eine „Vorschau“-Funktion kann sich der Betrachter mit Hilfe von Thumbnails einen Überblick über das gesamte Werk verschaffen: Darüber hinaus wird eine Zoommöglichkeit für die Betrachtung einzelner Details in verschiedenen Vergrößerungsstufen sowie eine Druckfunktion angeboten. Die kompletten Hand- oder Druckschriften werden auch als pdf-Dateien zum Download bereitgestellt. Die Einbindung von Social-Bookmarks rundet die Präsentation ab und bietet die Möglichkeit, persönliche Lesezeichen zu vergeben.
Neues Modul: heiANNO – Das Heidelberger Annotationsmodul für Annotationen und Kommentare
Die in Heidelberg unter „Heidelberger historische Bestände – digital“ online gestellten Hand- und Druckschriften können mit heiANNO – Das Heidelberger Annotationsmodul durch Wissenschaftler und Wissenschaftlerinnen weltweit annotiert werden. Jede Annotation, die über ein komfortables Webeingabeformular angebracht werden kann, ist mit dem Namen ihres Urhebers versehen, und ist eindeutig referenzierbar und damit zitierfähig. Korrekturen sind über eine Versionierung möglich, so dass jederzeit frühere Versionen einsehbar sind. Als Datenmodell für die als eigenständige, von der Anwendung DWork unabhängige (und somit für weitere Dienste nachnutzbar) programmierte Applikation fungiert das „Open Annotation Collaboration Model (OAC Model)”.
Die entsprechenden Text- und Bildzonen im digitalen Faksimile können über frei zeichenbare Polygone referenziert werden. Über die Annotationen können so semantische Verknüpfungen auf externe Objekte erstellt werden. Das Annotationswerkzeug wird auch in den nächsten Jahren weiter ausgebaut werden. Zusammen mit einem Editionsmodul trägt es dazu bei, dass sich der an der UB entwickelte Digitalisierungworkflow DWork stetig von einer reinen Präsentationsoberfläche zu einer interaktiven Forschungsplattform weiterentwickelt.