Samstag, 31. Dezember 2016

Schicht's Kochbuch Bd. 1

Dieser Tage hatte ich einen alten Artikel von mir gelesen, in dem ich aus "Schicht's Kochbuch" die Sachertorte vorgestellt habe.

Das alte Heftchen ist mittlerweile in einem erbärmlichen Zustand. Es besteht aus Holzschliff und das Papier zerfällt langsam (mehr darüber in http://www.spektrum.de/magazin/gefaehrdung-restaurierung-und-konservierung-von-schriftgut/822535).

Da ich über die Feiertage etwas Zeit hatte, habe ich mich hingesetzt und "Schicht's Kochbuch Bd. I" digitalisiert. Die Scandaten belegten ca. 1,2 GB.

Für das Postprocessing habe ich wie schon beim Dschiu-dschitsu Projekt das Programm Scantailor verwendet.

Die entstandenen TIFF-Seiten hatte ich diesmal doch via didjvu zu einem djvu-File konvertiert:

$> didjvu bundle -o Schichts_Kochbuch_Bd1.djvu *.tif

Mit ocrodjvu habe ich dann noch den OCR-Layer hinzugefügt:

$> ocrodjvu -l deu -e tesseract --in-place Schichts_Kochbuch_Bd1.djvu

Die Kompressionsrate ist beachtlich, aus knapp 98MB TIFF-Dateien entsteht eine nur 3.358.164 Byte große djvu-Datei (eine PDF-Datei wird ca. 19MB groß). Die Texte sind nahezu fehlerfrei von tesseract erkannt wurden.

Alles in allem brauchte ich für die ca. 77 Seiten knapp 10h für Digitalisierung und Nachbearbeitung.

Das Buch ist unter http://andreas-romeyke.de/Schichts_Kochbuch_Bd1.djvu zu finden.

Donnerstag, 29. Oktober 2015

Hilfe, ich verstehe nicht in welcher Auflösung ich scannen muß!

mindestens 2 Pixel Abstand zwischen Glyphen,
aber auch mindestens 2 Pixel für dünne
Bestandteile eines Glyphen

Allgemein

mit der Angabe dpi (dots per inch) definiert man die Auflösung eines digitalen Bildes. Man gibt an welcher Länge eine gewissen Anzahl von Pixeln eines Bildes entsprechen. In den Digitalisierungsrichtlinien zB. der DFG wird oft eine Auflösung von 300 dpi angegeben. Dies bezieht sich immer auf 1:1 Vorlagen, sprich, wenn Original und (digitale) Reproduktion die gleiche Größe besitzen. 300pi sind dann ein guter Kompromiß zwischen Dateigröße und Schärfegrad, bzw Nicht-mehr-Pixeligkeit beim 1:1 Druck.

Die Auflösung ist daher auch ein Maß der Ortsfrequenz des digitalen Bildes. Die Wahl der Scanauflösung bestimmt daher auch die Anfälligkeit des Digitalisats für Aliasing-Effekte in Abhängigkeit der Details des Originals.

Für die Berechnung gilt, wenn die Druckgröße von der Scangröße abweicht, wie dies zB. bei der Microverfilmung passiert oder bei Reproduktionsvergrößerungen, muß man etwas mehr genauer hinschauen.


                   Anzahl der Pixel
Auflösung = ----------------
                   Breite der Vorlage

Beispiel 1:1 Kopie

Liegt das Original in 10 x 10 inch vor und man möchte eine 1:1 Kopie im Druck darstellen, dann reichen die zB. bei der DFG angegebenen 300dpi, da dies dann 3000 x 3000 Pixeln entspricht.

 

Beispiel Bildschirmansicht

Viele Bildschirme kommen mit einer Auflösung von 100 dpi (früher 75 oder 90 dpi). Wenn man also ein Dokument 10x10 inch mit 300dpi gescannt hat, dann macht dies 3000x3000 pixel. Der Monitor kann aber nur 100dpi anzeigen, daher wird der Scan am Monitor mit je 3000dots/100 dpi = 30 inch Größe  angezeigt.

 

Beispiel Microfilm und Vergrößerung

wenn es sich um Microfilm handelt, wären 200dpi *erst recht* zuwenig. Die 300dpi wurden für eine 1:1 Repräsentation festgelegt.

Wenn Du vom Microfilm scannst, willst Du aber auf das Original vergrößern, dh.die notwendige DPI-Zahl ergibt sich aus der Zielgröße.

Ein Original der Größe 10x10 inch wurde auf Microfilm der Größe 0,1x0,1 inch verfilmt. Die Verfilmung soll gescannt werden, damit man Reproduktionen des Originals von 20x20 inch anfertigen kann.

Bei einer Druckauflösung von 300dpi müsste man also die 20x20 inch Reproduktion anfertigen. Das macht aber die 200fache (2x größer als Original und jenes 100x größer als Microverfilmung)  Vergrößerung der Microverfilmung aus, du brauchst daher  200*300dpi = 60.000dpi.

Ist auch logisch, denn wenn Du 0,1 inch mit zum Beispiel 200dpi scannen würdest, bekämst Du 200dpi * 0,1 inch = 20 Pixel heraus. Diese 20 Pixel würdest Du im Beispiel auf 20 inch verteilen, womit ein Pixel genau 1 inch groß wäre.

Wenn Du aber die 0,1 inch mit 60.000dpi scannst, bekommst Du 60.000dpi * 0,1 inch = 6000 pixel heraus, die  Du in der Vergrößerung auf 20 inch verteilst, was 6000dots/20inch = 300dpi Druckauflösung entspricht.

Sonntag, 18. Oktober 2015

Dschiu-Dschitsu


Das nebenstehende Büchlein hatte ich vor ein paar Wochen auf dem Flohmarkt erstanden.

Unter der Adresse http://andreas-romeyke.de/Dschiudschitsu.djvu habe ich die digitalisierte Datei als DJVu frei zur Verfügung gestellt (einen Urheberrechtsvermerk konnte ich bei der DNB nicht finden, IMHO sollte es mittlerweile gemeinfrei sein)

Das Büchlein wurde mittels xsane gescannt, dann mit tiff2pdf, pdf2djvu in ein DJVu konvertiert.

Mit didjvu würde man bessere Ergebnisse erzielen, leider erzeugt das Programm zZ. aber invertierte Seiten, wenn man es mit monochromen TIFFs füttert.

Die OCR erfolgte über ocrodjvu unter Zuhilfenahme von tesseract 3.03 und "-l deu-frak". Ein Postprocessing erfolgte nicht, einzig die Überschriften und Bildunterschriften wurden manuell mit djvusmooth nachkorrigiert.

Die Metadaten wurden über djvused hinzugefügt.

Anbei nochmal eine Zusammenfassung der Metadaten (nach Angabe der DNB):

  • Author:  "Shunsho, Daiji"
  • Titel: "Dschiu-Dschitsu"
  • Erscheinungsjahr:   1926
    Teil der: "Miniatur-Bibliothek ; 721/722"
  • Verlag: "Leipzig : Verlag für Kunst und Wissenschaft, 1926."
Wenn jemand den Volltext korrigiert, ich wäre an der korrigierten Fassung interessiert. Wer og. Digitalisat weiterverwenden will, dem bitte ich zur Aufrechterhaltung meiner Motivation um eine kleine Erwähnung. :)