Strohmaier, Christian M. (2005): Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente. Dissertation, LMU München: Fakultät für Sprach- und Literaturwissenschaften |
Vorschau |
PDF
Strohmaier_Christian.pdf 1MB |
Abstract
Das maschinelle Lesen, d. h. die Umwandlung gedruckter Dokumente via Pixelrepräsentation in eine Symbolfolgen, erfolgt mit heute verfügbaren, kommerziellen OCR-Engines für viele Dokumentklassen fast schon fehlerfrei. Trotzdem gilt für die meisten OCR-Anwendungen die Devise, je weniger Fehler, desto besser. Beispielsweise kann ein falsch erkannter Name innerhalb eines Geschäftsbriefes in einem automatisierten System zur Eingangsspostverteilung unnötige Kosten durch Fehlzuordnungen o.ä. verursachen. Eine lexikalische Nachkorrektur hilft, verbleibende Fehler von OCR-Engines aufzuspüren, zu korrigieren oder auch mit einer interaktiven Korrektur zu beseitigen. Neben einer Realisierung als nachgelagerte, externe Komponente, kann eine lexikalische Nachkorrektur auch direkt in eine OCR-Engine integriert werden. Meinen Beitrag zur lexikalischen Nachkorrektur habe ich in zehn Thesen untergliedert: These T1: Für eine Nachkorrektur von OCR-gelesenen Fachtexten können Lexika, die aus thematisch verwandten Web-Dokumenten stammen, gewinnbringend eingesetzt werden. These T2: Das Vokabular eines Fachtexts wird von großen Standardlexika unzureichend abgedeckt. Durch Textextraktion aus thematisch verwandten Web-Dokumenten lassen sich Lexika mit einer höheren Abdeckungsrate gewinnen. Zudem spiegeln die Frequenzinformationen aus diesen Web-Dokumenten die des Fachtexts besser wider als Frequenzinformationen aus Standardkorpora. These T3: Automatisierte Anfragen an Suchmaschinen bieten einen geeigneten Zugang zu den einschlägigen Web-Dokumenten eines Fachgebiets. These T4: Eine feingliedrige Fehlerklassifikation erlaubt die Lokalisierung der beiden Hauptfehlerquellen der webgestützten Nachkorrektur: • falsche Freunde, d. h. Fehler, die unentdeckt bleiben, da sie lexikalisch sind • unglückliche Korrekturen hin zu Orthographie- oder Flexions-Varianten These T5: Falsche Freunde werden durch eine Kombination mehrerer OCR-Engines deutlich vermindert. These T6: Mit einfachen Heuristiken wird ein unglücklicher Variantenaustausch der Nachkorrekturkomponente vermieden. These T7: Mit einer Vereinheitlichung zu Scores lassen sich diverse OCR-Nachkorrekturhilfen wie etwa Wort-Abstandsmaße, Frequenz- und Kontextinformationen kombinieren und zur Kandidaten- sowie Grenzbestimmung einsetzen. These T8: OCR-Nachkorrektur ist ein multidimensionales Parameteroptimierungsproblem, wie z. B. Auswahl der Scores, deren Kombination und Gewichtung, Grenzbestimmung oder Lexikonauswahl. Eine graphische Oberfläche eignet sich für eine Untersuchung der Parameter und deren Adjustierung auf Trainingsdaten. These T9: Die Software zur Parameteroptimierung der Nachkorrektur der Resultate einer OCR-Engine kann für die Kombination mehrerer OCR-Engines wiederverwendet werden, indem die Einzelresultate der Engines wieder zu Scores vereinheitlicht werden. These T10: Eine Wort-zu-Wort-Alignierung, wie sie für die Groundtruth-Erstellung und die Kombination von OCR-Engines notwendig ist, kann durch eine Verallgemeinerung des Levenshtein-Abstands auf Wortebene effizient realisiert werden.
Dokumententyp: | Dissertationen (Dissertation, LMU München) |
---|---|
Keywords: | OCR, Nachkorrektur, Web-Crawling, Lexika, Score-Kombination, Groundtruth, Levenshtein-Abstand, Kombination von OCR-Engines |
Themengebiete: | 400 Sprache
400 Sprache > 410 Linguistik |
Fakultäten: | Fakultät für Sprach- und Literaturwissenschaften |
Sprache der Hochschulschrift: | Deutsch |
Datum der mündlichen Prüfung: | 4. Februar 2005 |
1. Berichterstatter:in: | Schulz, Klaus U. |
MD5 Prüfsumme der PDF-Datei: | 63757875b784673608c7fe956958b24a |
Signatur der gedruckten Ausgabe: | 0001/UMC 14576 |
ID Code: | 3674 |
Eingestellt am: | 02. Jun. 2005 |
Letzte Änderungen: | 24. Oct. 2020 10:30 |