| Grootjen, Jesse W. (2025): Analyzing and predicting gaze behavior of people with visual impairments. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics |
Preview |
PDF
Grootjen_Jesse.pdf 20MB |
Abstract
Visual impairments, including cataracts, age-related macular degeneration, and glaucoma, affect millions globally, often progressing gradually and unnoticed until a significant part of vision is lost. These visual impairments lead to irreversible vision loss if left untreated. At the same time, treatment is available to slow the progression of these conditions, underscoring the importance of early detection and intervention. This dissertation explores how gaze behavior changes in response to cataracts, age-related macular degeneration, and glaucoma, and evaluates the feasibility of using these changes for early detection through gaze-based machine learning models. Framed within the broader goals of preventive healthcare, this work introduces a comprehensive framework for building scalable, low-burden, and privacy-preserving diagnostic systems grounded in eye tracking. To achieve this, the dissertation addresses three core research objectives. First, it investigates how simulated cataracts, glaucoma, and age-related macular degeneration affect gaze patterns during visual tasks in high-fidelity virtual environments. Itutilizes perceptually validated simulations, refined through structured interviews with individuals directly affecteds. This work captures nuanced behavioral adaptations, such as altered fixation rates, reduced saccadic amplitudes, and increased task durations. Notably, the early stages of cataract and glaucoma often resulted in measurable gaze changes before participants became consciously aware of any visual degradation, highlighting gaze-based detection as a promising avenue for early screening. Second, building on the finding that visual impairments induce measurable changes in eye movements, the thesis investigates how these changes can be reliably detected using machine learning. A central challenge in this effort is the presence of blink-related artifacts and missing data, which can distort gaze signals and compromise model performance. We conduct a structured literature review and identify inconsistencies in how such artifacts are handled across existing studies. In response, we introduce and validate a standardized preprocessing pipeline using 11 public datasets. Our empirical evaluation demonstrates that trimming blink-related artifacts up to 70 ms before and 118 ms after a blink with empirically derived thresholds and applying interpolation methods such as linear or cubic splines significantly enhances model reliability, particularly in sequence models such as long short-term memory neural networks. Using this pipeline, we allow for more consistent and reproducible gaze data handling, which is crucial for training robust predictive models. Third, my dissertation evaluates the application of gaze-based models for real-time detection and monitoring of central field loss. Using an existing dataset with simulated gaze-contingent scotomas, we compare traditional feature-based classifiers (support vector machines and random forests) with deep learning models (long short-term memory neural networks) trained on raw gaze sequences. Both approaches achieved high accuracy and precision in identifying central field loss conditions. Importantly, we introduce a novel cost-benefit framework that considers both model performance and computational latency. This analysis identifies a 1600 ms gaze window as the optimal balance between accuracy and responsiveness, enabling deployment on consumer-grade devices such as smartphones or tablets. After this, we integrate the findings across the three chapters to demonstrate that gaze behavior can reveal subtle and condition-specific signs of visual impairment before conscious awareness. Simulations of cataracts, glaucoma, and age-related macular degeneration in virtual reality revealed measurable changes in gaze behavior, such as increased fixation rates and altered saccades, that aligned with clinical symptomatology from the literature. By validating simulation realism through interviews, the studies aim to stay close to ecological fidelity. Further, a standardized preprocessing pipeline for blink-induced gaps improved signal quality and model reliability. Finally, long-short-term memory neural networks proved capable of detecting early-stage central field loss from short gaze windows, balancing accuracy and efficiency. Together, these results position gaze-based monitoring as a promising tool for scalable, preventive screening of vision disorders. In conclusion, this dissertation makes three key contributions: (1) a detailed characterization of gaze behavior under different types and severities of visual impairment, (2) a standardized and validated preprocessing pipeline to handle blink-induced artifacts in gaze data, and (3) the demonstration of gaze-based predictive models for early detection of central field loss, optimized for real-time, low-latency applications. These findings form the foundation for future gaze-based diagnostic systems that integrate seamlessly into daily interactions, enabling scalable and privacy-aware screening tools that support timely intervention and reduce the long-term burden of undiagnosed vision loss.
Abstract
Sehbeeinträchtigungen wie Katarakte, altersbedingte Makuladegeneration und Glaukome betreffen weltweit Millionen von Menschen und schreiten oft schleichend und unbemerkt voran, bis ein beträchtlicher Teil des Sehvermögens verloren gegangen ist. Unbehandelt können diese Seheinschränkungen zu irreversiblem Sehverlust führen. Mittlerweile stehen Therapien zur Verfügung, die das Fortschreiten dieser Erkrankungen verlangsamen können, was die Relevanz einer frühzeitigen Diagnose und Intervention unterstreicht. Diese Dissertation untersucht, wie sich das Blickverhalten als Reaktion auf Katarakte, altersbedingte Makuladegeneration und Glaukom verändert, und evaluiert das Potenzial der Nutzung dieser Veränderungen zur Früherkennung durch blickbasierte maschinelle Lernmodelle. Es wird ein umfassendes Framework für den Bau skalierbarer, belastungsarmer und datenschutzfreundlicher Diagnosesysteme auf der Grundlage von Eye-Tracking vorgestellt, das thematisch in die umfassenderen Ziele der Gesundheitsvorsorge eingebettet ist. Um dies zu erreichen, werden in dieser Dissertation drei zentrale Forschungsziele verfolgt. Zunächst wird untersucht, wie simulierte Katarakte, Glaukome und altersbedingte Makuladegeneration das Blickverhalten bei Sehaufgaben in einer realitätsnahen virtuellen Umgebung beeinflussen. Dabei werden wahrnehmungsbasierte Simulationen verwendet, die durch strukturierte Interviews mit Betroffenen verfeinert wurden. Diese Arbeit deckt subtile Verhaltensanpassungen auf, wie z. B. veränderte Fixationsraten, reduzierte sakkadische Amplituden und eine erhöhte Aufgabendauer. Bemerkenswert ist, dass die frühen Stadien von Katarakt und Glaukom oft zu messbaren Blickveränderungen führten, bevor sich die Teilnehmer einer Sehverschlechterung bewusstwurden, was die blickbasierte Früherkennung als einen vielversprechenden Ansatz hervorhebt. Zweitens wird, basierend auf der Erkenntnis, dass Sehbehinderungen messbare Veränderungen der Augenbewegungen hervorrufen, untersucht, wie diese Veränderungen mithilfe von maschinellem Lernen zuverlässig erkannt werden können. Eine wesentliche Herausforderung dabei sind Artefakte, die durch Blinzeln und fehlende Daten entstehen, wodurch Blicksignale verzerrt und die Leistung des Modells beeinträchtigt werden kann. Wir führen eine strukturierte Literaturrecherche durch und identifizieren Inkonsistenzen im Umgang mit solchen Artefakten in bestehenden Studien. Als Antwort darauf führen wir eine standardisierte Aufbereitungspipeline ein und validieren sie anhand von 11 öffentlichen Datensätzen. Unsere empirische Auswertung zeigt, dass das Abschneiden von blinzelbezogenen Artefakten bis zu 70 ms vor und 118 ms nach einem Blinzeln anhand empirisch abgeleiteter Schwellenwerte und die Anwendung von Interpolationsmethoden wie linearen oder kubischen Splines die Modellzuverlässigkeit deutlich erhöht, insbesondere bei Sequenzmodellen wie neuronalen Netzen mit Long Short-Term Memory. Mit dieser Pipeline ermöglichen wir eine konsistentere und reproduzierbarere Handhabung der Blickdaten, was für das Training robuster Vorhersagemodelle entscheidend ist. Drittens evaluiert meine Dissertation die Anwendung von blickbasierten Modellen für die Echtzeit-Erkennung und Überwachung des Verlusts des zentralen Gesichtsfeldes. Anhand eines bestehenden Datensatzes mit simulierten blickabhängigen Skotomen vergleichen wir traditionelle merkmalsbasierte Klassifikatoren (Support Vector Machines und Random Forests) mit Deep-Learning-Modellen (neuronale Netze mit Long Short-Term Memory), die auf rohen Blicksequenzen trainiert wurden. Beide Ansätze erreichten eine hohe Korrektklassifikationsrate und Relevanz bei der Identifizierung zentraler Gesichtsfeldausfälle. Insbesondere führen wir ein neues Kosten-Nutzen-Framework ein, das die Modellleistung und die Berechnungslatenz berücksichtigt. Die Analyse hat gezeigt, dass ein Blickfenster von 1600 ms das optimale Gleichgewicht zwischen Genauigkeit und Reaktionsschnelligkeit darstellt und damit den Einsatz auf Verbrauchergeräten wie Smartphones oder Tablets ermöglicht. Anschließend werden die Ergebnisse aus den drei Kapiteln zusammengeführt, um zu zeigen, dass das Blickverhalten subtile und krankheitsspezifische Anzeichen einer Sehbehinderung aufzeigen kann, bevor diese bewusst wahrgenommen wird. Simulationen von Katarakten, Glaukomen und altersbedingter Makuladegeneration in der virtuellen Realität ergaben messbare Veränderungen im Blickverhalten, wie erhöhte Fixationsraten und veränderte Sakkaden, die mit der klinischen Symptomatik aus der Fachliteratur übereinstimmten. Durch Überprüfung der Realitätstreue der Simulation anhand von Befragungen zielen die Studien darauf ab, die Realität genau abzubilden. Darüber hinaus werden die Signalqualität und die Zuverlässigkeit des Modells durch eine standardisierte Aufbereitung der Lücken, die durch Blinzeln verursacht werden, verbessert. Schlussendlich hat sich gezeigt, dass neuronale Netze mit Long Short-Term Memory in der Lage sind, den Verlust des zentralen Gesichtsfeldes im Frühstadium aus kurzen Blickfenstern zu erkennen und dabei ein Gleichgewicht zwischen Genauigkeit und Effizienz zu erzielen. Diese Ergebnisse machen Blickerfassung zu einem vielversprechenden Instrument für ein skalierbares, präventives Screening von Sehstörungen. Diese Dissertation leistet daher drei wichtige Forschungsbeiträge: (1) eine detaillierte Charakterisierung des Blickverhaltens bei verschiedenen Arten und Schweregraden von Sehbeeinträchtigungen, (2) eine standardisierte und validierte Pipeline zur Aufbereitung von Blickdaten, um durch Blinzeln verursachte Artefakte zu behandeln, und (3) die Demonstration von blickbasierten Vorhersagemodellen für die frühzeitige Erkennung des Verlusts des zentralen Gesichtsfelds, die für Echtzeitanwendungen mit geringer Latenzzeit optimiert sind. Diese Forschungsergebnisse bilden die Grundlage für künftige blickbasierte Diagnosesysteme, die sich nahtlos in den Alltag integrieren lassen und skalierbare und datenschutzfreundliche Screening-Tools ermöglichen. Diese Tools können das rechtzeitige Eingreifen unterstützen und die langfristige Belastung durch nicht diagnostizierte Sehbeeinträchtigungen verringern.
| Item Type: | Theses (Dissertation, LMU Munich) |
|---|---|
| Subjects: | 000 Computers, Information and General Reference |
| Faculties: | Faculty of Mathematics, Computer Science and Statistics |
| Language: | English |
| Date of oral examination: | 29. October 2025 |
| 1. Referee: | Schmidt, Albrecht |
| MD5 Checksum of the PDF-file: | dfef55199be108803356677403a57b5f |
| Signature of the printed copy: | 0001/UMC 31618 |
| ID Code: | 36143 |
| Deposited On: | 11. Dec 2025 14:12 |
| Last Modified: | 22. Apr 2026 09:38 |