Logo Logo
Hilfe
Kontakt
Switch language to English
Statistical methods leveraging uncertainties in machine learning
Statistical methods leveraging uncertainties in machine learning
In today’s data-driven landscape, machine learning methods are increasingly applied in domains that demand high levels of safety, reliability, and interpretability. However, hidden influencing factors and limited data availability can significantly impair model performance and amplify predictive uncertainty. Recognizing, quantifying, and—where possible—reducing uncertainties such as aleatoric and epistemic uncertainty has therefore become a central concern. This is particularly true in critical fields like autonomous driving, medical diagnostics, finance, weather forecasting, and industrial production, where dependable predictions are not merely advantageous, but essential. Despite its relevance, the broader adoption of uncertainty quantification in practice is often hindered by high computational demands and growing model complexity. Furthermore, aleatoric uncertainty—stemming from noise and imperfections in the data itself—poses a fundamental challenge to the reliability of data-driven models. This dissertation explores multiple strategies for uncertainty quantification across four publications. These contributions examine both the necessity and the practical implementation of probabilistic techniques, while also introducing novel, less computationally intensive methods that reduce model complexity without sacrificing robustness. Publication 1: The first study addresses epistemic and aleatoric uncertainties in the preprocessing phase of industrial production modeling. Aleatoric uncertainties are predefined based on expert experience, setting the bounds for acceptable input variation. Given the limited spatial distribution of measurement data, uncertainty-aware interpolation is applied for data augmentation. Probabilistic Gaussian Process Regression is employed to model prediction intervals and serve as a basis for generating synthetic input data. Results using real production data from ams OSRAM show that even with sparse measurements, highly accurate models can be constructed. Publication 2: The second study introduces a novel modeling approach that combines two types of target variables: a continuous regression target and an ordinal classification target. A customized loss function, paired with fuzzy logic, enables the model to optimize regression estimates while simultaneously improving classification performance. The method shows particularly strong performance in imbalanced data scenarios, leading to a significant reduction in latent uncertainty. Applied to housing market data in the United States, the approach yields up to a 17.1% improvement in F1-score. Publication 3: The third publication investigates the integration of data-independent, expertderived knowledge into data-dependent learning models. Unmeasured or unquantified latent uncertainties can reduce model robustness. This approach trains models using both observed data and qualitative expert assessments—without requiring expert input at inference time. Results using synthetic data generated via variational autoencoders (VAEs), based on real-world use cases from ams OSRAM, demonstrate improved optimization even with a marginal increase in mean absolute error (MAE). Publication 4: The fourth study addresses the challenge of training with small datasets. A probabilistic modeling approach is presented that estimates the latent distribution of a target variable using ordinal class labels. This enables the generation of additional, reliable input data to support model training. With only 5–10% of the original training data, the method achieves notable improvements: up to 10% in mean squared error (MSE), 5–10% in coefficient of determination (R2), and approximately 8% in prediction coverage., In der heutigen datengetriebenen Welt werden Machine-Learning-Methoden zunehmend in sicherheitskritischen und hochzuverlässigen Anwendungsbereichen eingesetzt. Verdeckte Einflussfaktoren sowie begrenzte Datenverfügbarkeit können jedoch die Modellgüte erheblich beeinträchtigen und die Vorhersageunsicherheit erhöhen. Die Erkennung, Quantifizierung und – wo möglich – Reduktion von Unsicherheiten, insbesondere aleatorischer und epistemischer Art, hat daher zentrale Bedeutung gewonnen. Dies gilt insbesondere für Anwendungsfelder wie autonomes Fahren, medizinische Diagnostik, Finanzwesen, Wetterprognose und industrielle Produktion, in denen verlässliche Vorhersagen nicht nur wünschenswert, sondern essenziell sind. Die breite Anwendung von Unsicherheitsquantifizierung scheitert jedoch häufig an hohen Rechenaufwänden und zunehmender Modellkomplexität. Zudem stellt die aleatorische Unsicherheit – verursacht durch zufällige Messfehler und Datenrauschen – eine grundlegende Herausforderung für die Verlässlichkeit datenbasierter Modelle dar. Diese Dissertation untersucht verschiedene Strategien zur Quantifizierung von Unsicherheiten anhand von vier begutachteten Publikationen. Die Beiträge beleuchten sowohl die Notwendigkeit als auch die praktische Umsetzung probabilistischer Verfahren und schlagen darüber hinaus neuartige, rechenökonomische Alternativen vor, die ohne signifikante Steigerung der Modellkomplexität eine robuste Modellierung ermöglichen. Publikation 1: Die erste Studie thematisiert epistemische und aleatorische Unsicherheiten in der Vorverarbeitung industrieller Produktionsdaten. Aleatorische Messunsicherheiten werden auf Basis von Erfahrungswerten vordefiniert, um einen Rahmen für die Eingabedatenunsicherheit zu schaffen. Aufgrund der räumlich begrenzten Messpunktverteilung werden Interpolationsverfahren mit Unsicherheitsberücksichtigung zur Datenanreicherung eingesetzt. Eine probabilistische Gaussian-Process-Regression dient zur Modellierung von Prognoseintervallen und zur Generierung zusätzlicher Eingabedaten. Die Anwendung auf Produktionsdaten der Firma ams OSRAM zeigt, dass auch mit wenigen Messwerten präzise Modelle realisierbar sind. Publikation 2: Die zweite Studie stellt einen innovativen Modellierungsansatz vor, der zwei Zielgrößen kombiniert: eine kontinuierliche Regressionsgröße und eine ordinale Klassifikationsgröße. Eine angepasste Verlustfunktion in Kombination mit Fuzzy Logic ermöglicht eine gleichzeitige Optimierung beider Zielgrößen. Der Ansatz zeigt insbesondere bei unausgeglichenen Klassenverteilungen signifikante Verbesserungen und reduziert latente Unsicherheiten durch die Kombination beider Ziele. Die Anwendung auf US-Immobiliendaten zeigt eine Verbesserung des F1-Scores um bis zu 17,1 %. Publikation 3: Die dritte Veröffentlichung befasst sich mit der Integration von datenneutralem Expertenwissen in datenabhängige Lernmodelle. Nicht gemessene oder nicht quantifizierbare Unsicherheiten können die Modellstabilität gefährden. Der vorgestellte Ansatz kombiniert trainingsseitig beobachtete Daten mit qualitativen Experteneinschätzungen – ohne dass Expertenwissen zur Vorhersagezeit erforderlich ist. Ergebnisse mit synthetischen Daten, erzeugt mittels Variational Autoencoders (VAE) auf Basis realer ams-OSRAM-Anwendungsfälle, zeigen eine verbesserte Modelloptimierung trotz eines geringen Anstiegs des mittleren absoluten Fehlers (MAE). Publikation 4: Die vierte Studie widmet sich der Problematik kleiner Stichprobenumfänge. Ein probabilistischer Modellierungsansatz wird vorgestellt, bei dem die Verteilung der Zielgröße über ordinale Klassen abgeschätzt wird. Dadurch lassen sich zusätzliche, zuverlässige Eingabedaten für das Modelltraining erzeugen. Bereits mit 5–10% der ursprünglichen Trainingsdaten lassen sich deutliche Verbesserungen erzielen: eine Reduktion des mittleren quadratischen Fehlers (MSE) um bis zu 10 %, eine Steigerung des Bestimmtheitsmaßes (R2) um 5–10% sowie eine um rund 8% verbesserte Abdeckung der Prognoseintervalle.
statistical methods, uncertainty quantification, probability distribution, machine learning
Stroka, Stefan
2025
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Stroka, Stefan (2025): Statistical methods leveraging uncertainties in machine learning. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of Stroka_Stefan_Michael.pdf]
Vorschau
PDF
Stroka_Stefan_Michael.pdf

11MB

Abstract

In today’s data-driven landscape, machine learning methods are increasingly applied in domains that demand high levels of safety, reliability, and interpretability. However, hidden influencing factors and limited data availability can significantly impair model performance and amplify predictive uncertainty. Recognizing, quantifying, and—where possible—reducing uncertainties such as aleatoric and epistemic uncertainty has therefore become a central concern. This is particularly true in critical fields like autonomous driving, medical diagnostics, finance, weather forecasting, and industrial production, where dependable predictions are not merely advantageous, but essential. Despite its relevance, the broader adoption of uncertainty quantification in practice is often hindered by high computational demands and growing model complexity. Furthermore, aleatoric uncertainty—stemming from noise and imperfections in the data itself—poses a fundamental challenge to the reliability of data-driven models. This dissertation explores multiple strategies for uncertainty quantification across four publications. These contributions examine both the necessity and the practical implementation of probabilistic techniques, while also introducing novel, less computationally intensive methods that reduce model complexity without sacrificing robustness. Publication 1: The first study addresses epistemic and aleatoric uncertainties in the preprocessing phase of industrial production modeling. Aleatoric uncertainties are predefined based on expert experience, setting the bounds for acceptable input variation. Given the limited spatial distribution of measurement data, uncertainty-aware interpolation is applied for data augmentation. Probabilistic Gaussian Process Regression is employed to model prediction intervals and serve as a basis for generating synthetic input data. Results using real production data from ams OSRAM show that even with sparse measurements, highly accurate models can be constructed. Publication 2: The second study introduces a novel modeling approach that combines two types of target variables: a continuous regression target and an ordinal classification target. A customized loss function, paired with fuzzy logic, enables the model to optimize regression estimates while simultaneously improving classification performance. The method shows particularly strong performance in imbalanced data scenarios, leading to a significant reduction in latent uncertainty. Applied to housing market data in the United States, the approach yields up to a 17.1% improvement in F1-score. Publication 3: The third publication investigates the integration of data-independent, expertderived knowledge into data-dependent learning models. Unmeasured or unquantified latent uncertainties can reduce model robustness. This approach trains models using both observed data and qualitative expert assessments—without requiring expert input at inference time. Results using synthetic data generated via variational autoencoders (VAEs), based on real-world use cases from ams OSRAM, demonstrate improved optimization even with a marginal increase in mean absolute error (MAE). Publication 4: The fourth study addresses the challenge of training with small datasets. A probabilistic modeling approach is presented that estimates the latent distribution of a target variable using ordinal class labels. This enables the generation of additional, reliable input data to support model training. With only 5–10% of the original training data, the method achieves notable improvements: up to 10% in mean squared error (MSE), 5–10% in coefficient of determination (R2), and approximately 8% in prediction coverage.

Abstract

In der heutigen datengetriebenen Welt werden Machine-Learning-Methoden zunehmend in sicherheitskritischen und hochzuverlässigen Anwendungsbereichen eingesetzt. Verdeckte Einflussfaktoren sowie begrenzte Datenverfügbarkeit können jedoch die Modellgüte erheblich beeinträchtigen und die Vorhersageunsicherheit erhöhen. Die Erkennung, Quantifizierung und – wo möglich – Reduktion von Unsicherheiten, insbesondere aleatorischer und epistemischer Art, hat daher zentrale Bedeutung gewonnen. Dies gilt insbesondere für Anwendungsfelder wie autonomes Fahren, medizinische Diagnostik, Finanzwesen, Wetterprognose und industrielle Produktion, in denen verlässliche Vorhersagen nicht nur wünschenswert, sondern essenziell sind. Die breite Anwendung von Unsicherheitsquantifizierung scheitert jedoch häufig an hohen Rechenaufwänden und zunehmender Modellkomplexität. Zudem stellt die aleatorische Unsicherheit – verursacht durch zufällige Messfehler und Datenrauschen – eine grundlegende Herausforderung für die Verlässlichkeit datenbasierter Modelle dar. Diese Dissertation untersucht verschiedene Strategien zur Quantifizierung von Unsicherheiten anhand von vier begutachteten Publikationen. Die Beiträge beleuchten sowohl die Notwendigkeit als auch die praktische Umsetzung probabilistischer Verfahren und schlagen darüber hinaus neuartige, rechenökonomische Alternativen vor, die ohne signifikante Steigerung der Modellkomplexität eine robuste Modellierung ermöglichen. Publikation 1: Die erste Studie thematisiert epistemische und aleatorische Unsicherheiten in der Vorverarbeitung industrieller Produktionsdaten. Aleatorische Messunsicherheiten werden auf Basis von Erfahrungswerten vordefiniert, um einen Rahmen für die Eingabedatenunsicherheit zu schaffen. Aufgrund der räumlich begrenzten Messpunktverteilung werden Interpolationsverfahren mit Unsicherheitsberücksichtigung zur Datenanreicherung eingesetzt. Eine probabilistische Gaussian-Process-Regression dient zur Modellierung von Prognoseintervallen und zur Generierung zusätzlicher Eingabedaten. Die Anwendung auf Produktionsdaten der Firma ams OSRAM zeigt, dass auch mit wenigen Messwerten präzise Modelle realisierbar sind. Publikation 2: Die zweite Studie stellt einen innovativen Modellierungsansatz vor, der zwei Zielgrößen kombiniert: eine kontinuierliche Regressionsgröße und eine ordinale Klassifikationsgröße. Eine angepasste Verlustfunktion in Kombination mit Fuzzy Logic ermöglicht eine gleichzeitige Optimierung beider Zielgrößen. Der Ansatz zeigt insbesondere bei unausgeglichenen Klassenverteilungen signifikante Verbesserungen und reduziert latente Unsicherheiten durch die Kombination beider Ziele. Die Anwendung auf US-Immobiliendaten zeigt eine Verbesserung des F1-Scores um bis zu 17,1 %. Publikation 3: Die dritte Veröffentlichung befasst sich mit der Integration von datenneutralem Expertenwissen in datenabhängige Lernmodelle. Nicht gemessene oder nicht quantifizierbare Unsicherheiten können die Modellstabilität gefährden. Der vorgestellte Ansatz kombiniert trainingsseitig beobachtete Daten mit qualitativen Experteneinschätzungen – ohne dass Expertenwissen zur Vorhersagezeit erforderlich ist. Ergebnisse mit synthetischen Daten, erzeugt mittels Variational Autoencoders (VAE) auf Basis realer ams-OSRAM-Anwendungsfälle, zeigen eine verbesserte Modelloptimierung trotz eines geringen Anstiegs des mittleren absoluten Fehlers (MAE). Publikation 4: Die vierte Studie widmet sich der Problematik kleiner Stichprobenumfänge. Ein probabilistischer Modellierungsansatz wird vorgestellt, bei dem die Verteilung der Zielgröße über ordinale Klassen abgeschätzt wird. Dadurch lassen sich zusätzliche, zuverlässige Eingabedaten für das Modelltraining erzeugen. Bereits mit 5–10% der ursprünglichen Trainingsdaten lassen sich deutliche Verbesserungen erzielen: eine Reduktion des mittleren quadratischen Fehlers (MSE) um bis zu 10 %, eine Steigerung des Bestimmtheitsmaßes (R2) um 5–10% sowie eine um rund 8% verbesserte Abdeckung der Prognoseintervalle.