BMBF - Entwicklung und Erforschung der Zeichenerkennung für alte Schriften und Formulare
Arbeitsgruppe: | AG Technomathematik |
Leitung: | Prof. Dr. Dr. h.c. Peter Maaß ((0421) 218-63801, E-Mail: pmaass@math.uni-bremen.de ) |
Bearbeitung: | |
Projektförderung: | BMBF |
Projektpartner: |
WiSenT GmbH (Potsdam) Chinesische Akademie der Wissenschaften |
Laufzeit: | 01.04.1999 - 30.09.2002 |
Über vier Jahrhunderte lang war Fraktur die meistverbreitetste Schrift in Deutschland, in der Bücher, Zeitungen und Geschäftspost gesetzt und gedruckt wurden. Seltene und wertvolle Schriften des 16. bis 19. Jahrhunderts liegen heute oft nur noch in wenigen Exemplaren vor und unterliegen aufgrund ihres Alters Benutzungseinschränkungen. In diesem Projekt der AG Technomathematik wird deshalb ein Programmpaket zur automatischen Volltexterfassung entwickelt, mit dem Frakturtexte digitalisiert werden können. Vorhandene OCR-Software (optical character recognition), die bei heute gängigen Schriftfonts gute Ergebnisse liefern, versagen jedoch völlig bei Frakturschriften. In einem ersten Arbeitsschritt werden die Dokumente mit einem Scanner in digitale Bilder umgewandelt, die dann vorbearbeitet werden müssen, um z.B. Schmutzstellen zu entfernen oder für Kontrastausgleich bei vergilbten Seiten zu sorgen. Erst dann beginnt die eigentliche Zeichenerkennung. Bei allen OCR-Verfahren werden für die einzelnen Schriftzeichen zunächst eine Reihe von Merkmalen bestimmt. Mit Hilfe dieses Merkmalsvektors wird danach eine Klassifizierung des Buchstabens durchgeführt. Die herkömmlichen Verfahren scheitern bei Frakturschriften, da diese eine starke Fluktuation innerhalb desselben Zeichensatzes aufweisen und die charakteristischen Merkmale dieser ``alten'' Schriftfonts von denen moderner Schriften stark abweichen.
Bei der hier entwickelten Software wird auf der Grundlage von modernen mathematischen Methoden (Wavelet-Algorithmen und nichtlineare Ausgleichsrechnung als Filter zur Bestimmung von Zeichencharakteristika) ein Verfahren zur optimierten Bestimmung von Merkmalsvektoren von Frakturschriften eingesetzt. Mit Testmaterial, bestehend aus den ersten Seiten des zu digitalisierenden Werkes, wird ein neuronales Netz trainiert, das letztendlich automatisch einen binären Entscheidungsbaum zur Klassifizierung der Fraktur-Zeichen generiert. Dabei wird jedem Zeichen zusätzlich eine Erkennungswahrscheinlichkeit zugeordnet und kritische Zeichen werden farblich für eine manuelle Nachbearbeitung markiert. Mithilfe dieser Nachbearbeitung kann dann die automatische Erkennungsrate von circa 99% auf annähernd 100% gesteigert werden, die für Ausdrucke in einer modernen Schriftart nötig ist. Zur Zeit können etwa 200 Frakturzeichen pro Sekunde erkannt werden, so dass auch die "Übersetzung" mehrerer hundert Seiten starker Werke innerhalb kürzester Zeit möglich ist. Als ein erstes Referenzbeispiel wurde so das Buch "Goethes Berliner Beziehungen" von E. Arnhold (erschienen 1925, etwa 1 Million Zeichen) retrodigitalisiert.