Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente

www.lmu.de | UB | Blättern | FAQ

Zur erweiterten Suche

English

Zur erweiterten Suche

Das maschinelle Lesen, d. h. die Umwandlung gedruckter Dokumente via Pixelrepräsentation in eine Symbolfolgen, erfolgt mit heute verfügbaren, kommerziellen OCR-Engines für viele Dokumentklassen fast schon fehlerfrei. Trotzdem gilt für die meisten OCR-Anwendungen die Devise, je weniger Fehler, desto besser. Beispielsweise kann ein falsch erkannter Name innerhalb eines Geschäftsbriefes in einem automatisierten System zur Eingangsspostverteilung unnötige Kosten durch Fehlzuordnungen o.ä. verursachen. Eine lexikalische Nachkorrektur hilft, verbleibende Fehler von OCR-Engines aufzuspüren, zu korrigieren oder auch mit einer interaktiven Korrektur zu beseitigen. Neben einer Realisierung als nachgelagerte, externe Komponente, kann eine lexikalische Nachkorrektur auch direkt in eine OCR-Engine integriert werden. Meinen Beitrag zur lexikalischen Nachkorrektur habe ich in zehn Thesen untergliedert: These T1: Für eine Nachkorrektur von OCR-gelesenen Fachtexten können Lexika, die aus thematisch verwandten Web-Dokumenten stammen, gewinnbringend eingesetzt werden. These T2: Das Vokabular eines Fachtexts wird von großen Standardlexika unzureichend abgedeckt. Durch Textextraktion aus thematisch verwandten Web-Dokumenten lassen sich Lexika mit einer höheren Abdeckungsrate gewinnen. Zudem spiegeln die Frequenzinformationen aus diesen Web-Dokumenten die des Fachtexts besser wider als Frequenzinformationen aus Standardkorpora. These T3: Automatisierte Anfragen an Suchmaschinen bieten einen geeigneten Zugang zu den einschlägigen Web-Dokumenten eines Fachgebiets. These T4: Eine feingliedrige Fehlerklassifikation erlaubt die Lokalisierung der beiden Hauptfehlerquellen der webgestützten Nachkorrektur: • falsche Freunde, d. h. Fehler, die unentdeckt bleiben, da sie lexikalisch sind • unglückliche Korrekturen hin zu Orthographie- oder Flexions-Varianten These T5: Falsche Freunde werden durch eine Kombination mehrerer OCR-Engines deutlich vermindert. These T6: Mit einfachen Heuristiken wird ein unglücklicher Variantenaustausch der Nachkorrekturkomponente vermieden. These T7: Mit einer Vereinheitlichung zu Scores lassen sich diverse OCR-Nachkorrekturhilfen wie etwa Wort-Abstandsmaße, Frequenz- und Kontextinformationen kombinieren und zur Kandidaten- sowie Grenzbestimmung einsetzen. These T8: OCR-Nachkorrektur ist ein multidimensionales Parameteroptimierungsproblem, wie z. B. Auswahl der Scores, deren Kombination und Gewichtung, Grenzbestimmung oder Lexikonauswahl. Eine graphische Oberfläche eignet sich für eine Untersuchung der Parameter und deren Adjustierung auf Trainingsdaten. These T9: Die Software zur Parameteroptimierung der Nachkorrektur der Resultate einer OCR-Engine kann für die Kombination mehrerer OCR-Engines wiederverwendet werden, indem die Einzelresultate der Engines wieder zu Scores vereinheitlicht werden. These T10: Eine Wort-zu-Wort-Alignierung, wie sie für die Groundtruth-Erstellung und die Kombination von OCR-Engines notwendig ist, kann durch eine Verallgemeinerung des Levenshtein-Abstands auf Wortebene effizient realisiert werden.

OCR, Nachkorrektur, Web-Crawling, Lexika, Score-Kombination, Groundtruth, Levenshtein-Abstand, Kombination von OCR-Engines

Strohmaier, Christian M.

04. Feb. 2005

2005

Deutsch

Universitätsbibliothek der Ludwig-Maximilians-Universität München

https://nbn-resolving.org/urn:nbn:de:bvb:19-36743

Strohmaier, Christian M. (2005): Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente. Dissertation, LMU München: Fakultät für Sprach- und Literaturwissenschaften

Vorschau

PDF
Strohmaier_Christian.pdf
1MB

DOI: 10.5282/edoc.3674

URN: urn:nbn:de:bvb:19-36743

Abstract

Dokumententyp:	Dissertationen (Dissertation, LMU München)
Keywords:	OCR, Nachkorrektur, Web-Crawling, Lexika, Score-Kombination, Groundtruth, Levenshtein-Abstand, Kombination von OCR-Engines
Themengebiete:	400 Sprache 400 Sprache > 410 Linguistik
Fakultäten:	Fakultät für Sprach- und Literaturwissenschaften
Sprache der Hochschulschrift:	Deutsch
Datum der mündlichen Prüfung:	4. Februar 2005
1. Berichterstatter:in:	Schulz, Klaus U.
MD5 Prüfsumme der PDF-Datei:	63757875b784673608c7fe956958b24a
Signatur der gedruckten Ausgabe:	0001/UMC 14576
ID Code:	3674
Eingestellt am:	02. Jun. 2005
Letzte Änderungen:	24. Oct. 2020 10:30

Nur für Administratoren und Editoren: Dokument bearbeiten