Logo Logo
Hilfe
Kontakt
Switch language to English
Uncertainty quantification in data-centric machine learning. some statistical perspectives
Uncertainty quantification in data-centric machine learning. some statistical perspectives
Machine learning and statistics allow for conclusions about something unknown (population) based on limited observations thereof (data) and assumptions thereon (model). These conclusions come with uncertainty, which can originate in any of the three elements: the unknown population itself (hence irreducible uncertainty) or the data and the model (both reducible). Data contributes to this uncertainty in a quantitative and a qualitative way. While the former contribution is self-explanatory and monocausal (too few observations), the latter contribution can be due to complex data collection, pre-processing, merging and the like. Data-centric machine learning refers to methods that account for or directly entail such data selection steps. Here, data is used for two purposes: to draw conclusions about the population in the first place (training) as well as to evaluate these conclusions’ quality later (testing). This cumulative dissertation studies the selection of these two kinds of data: training data (Part III, Contributions 1–9) and testing data (Part IV, Contributions 10–14). By quantifying the involved uncertainty, the dissertation aims to advance the reliability and trustworthiness of data-centric machine learning. As it will turn out, this endeavor requires a closer look at interactions and feedback loops among all three elements from above: population, data and model. The stylized separation among the three will prove illusory. In particular, Part III of the dissertation will demonstrate that various machine learning algorithms let the model self-select the training data, with far-reaching consequences for statistical inference from such data. The dissertation answers the questions of whether and to what degree reliable conclusions about the population are still possible in this scenario. In a similar spirit, Part IV investigates how the selection of testing data for (multicriteria) benchmarking algorithms affects the validity of the benchmarking results. Here, a special emphasis is also put on how this validity depends on multiple criteria and on the way they are aggregated. Part III and Part IV fundamentally rely on decision-theoretic embeddings of training and testing data selection, respectively. All in all, the dissertation offers novel insights into quantifying uncertainty originating from data selection in statistics and machine learning. They lead to more robust and reliable methods as well as critical assessments of existing ones. Both aspects contribute to a safer, more sustainable and less harmful usage of machine learning and statistics., Maschinelles Lernen und Statistik ermöglichen Einsichten in etwas Unbekanntes (Population) durch begrenzte Beobachtungen des Unbekannten (Daten) und Annahmen über das Unbekannte (Modell). Diese Einsichten sind mit Unsicherheiten behaftet. Die Quellen der Unsicherheiten können in allen drei Elementen liegen: in der unbekannten Population selbst (nicht reduzierbare Unsicherheit) oder in den Daten und dem Modell (beide reduzierbar). Daten tragen quantitativ und qualitativ zu letzterer Unsicherheit bei. Während die quantitative Komponente selbsterklärend und monokausal ist (zu wenige Beobachtungen), kann die qualitative Komponente auf komplexe Datenerfassung, Vorverarbeitung, Zusammenführung und Ähnliches zurückzuführen sein. Datenzentriertes maschinelles Lernen bezieht sich auf Methoden, die solche Datenauswahlschritte berücksichtigen oder direkt mit sich bringen. Hier werden Daten für zwei Zwecke verwendet: zunächst, um Schlussfolgerungen über die Population zu ziehen (Training) und später dann, um die Qualität dieser Schlussfolgerungen zu bewerten (Test). Diese aus 14 Beiträgen bestehende kumulative Dissertation untersucht die Auswahl dieser beiden Arten von Daten: Trainingsdaten (Teil III, Beiträge 1-9) und Testdaten (Teil IV, Beiträge 10-14). Durch die Quantifizierung der damit verbundenen Unsicherheit setzt sich die vorliegende Dissertation zum Ziel, die Zuverlässigkeit und Vertrauenswürdigkeit des datenzentrierten maschinellen Lernens zu verbessern. Wie sich herausstellen wird, erfordert dieses Unterfangen eine genauere Betrachtung der Wechselwirkungen und Rückkopplungsschleifen zwischen allen drei oben genannten Elementen: Population, Daten und Modell. Die stilisierte Trennung zwischen den drei Elementen wird sich als illusorisch erweisen. Insbesondere wird Teil III der Dissertation zeigen, dass verschiedene Algorithmen des maschinellen Lernens das Modell die Trainingsdaten selbst auswählen lassen, was weitreichende Konsequenzen für die statistische Inferenz aus solchen Daten hat. Die Dissertation beantwortet die Frage, ob und inwieweit in diesem Szenario noch zuverlässige Schlussfolgerungen über die Population möglich sind. In ähnlicher Weise untersucht Teil IV, wie sich die Auswahl von Testdaten für das multikriterielle Benchmarking von Algorithmen auf die Validität der Benchmarking-Ergebnisse auswirkt. Dabei wird auch darauf eingegangen, wie diese Validität von mehreren Kriterien abhängt und insbesondere davon, wie diese Kriterien aggregiert werden. Teil III und Teil IV basieren grundlegend auf entscheidungstheoretischen Einbettungen der Auswahl von Trainings- beziehungsweise von Testdaten. Insgesamt bietet die Dissertation neue Erkenntnisse zur Quantifizierung von Unsicherheiten, die aus der Datenauswahl in der Statistik und im maschinellen Lernen resultieren. Diese führen zu robusteren und zuverlässigeren Methoden sowie zu einer kritischen Bewertung bestehender Methoden. Beides trägt zu einer sichereren, nachhaltigeren und weniger schädlichen Nutzung von maschinellem Lernen und Statistik bei.
uncertainty quantification, data-centric machine learning, imprecise probabilities, decision theory, reciprocal learning, statistical learning theory, self-selected data, feedback loops, Bayesian optimization, robust Bayesian optimization, semi-supervised learning, self-training, pseudo-label selection, superset learning, generalization bounds, Wasserstein ambiguity sets complex samples, de-biased trees and forests, multicriteria benchmarking, generalized stochastic dominance, GSD-front, partial rankings, language model evaluation, LLM-generated text, robust statistical benchmarking
Rodemann, Julian Martin
2026
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Rodemann, Julian Martin (2026): Uncertainty quantification in data-centric machine learning: some statistical perspectives. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of rodemann_julian.pdf]
Vorschau
PDF
rodemann_julian.pdf

1MB

Abstract

Machine learning and statistics allow for conclusions about something unknown (population) based on limited observations thereof (data) and assumptions thereon (model). These conclusions come with uncertainty, which can originate in any of the three elements: the unknown population itself (hence irreducible uncertainty) or the data and the model (both reducible). Data contributes to this uncertainty in a quantitative and a qualitative way. While the former contribution is self-explanatory and monocausal (too few observations), the latter contribution can be due to complex data collection, pre-processing, merging and the like. Data-centric machine learning refers to methods that account for or directly entail such data selection steps. Here, data is used for two purposes: to draw conclusions about the population in the first place (training) as well as to evaluate these conclusions’ quality later (testing). This cumulative dissertation studies the selection of these two kinds of data: training data (Part III, Contributions 1–9) and testing data (Part IV, Contributions 10–14). By quantifying the involved uncertainty, the dissertation aims to advance the reliability and trustworthiness of data-centric machine learning. As it will turn out, this endeavor requires a closer look at interactions and feedback loops among all three elements from above: population, data and model. The stylized separation among the three will prove illusory. In particular, Part III of the dissertation will demonstrate that various machine learning algorithms let the model self-select the training data, with far-reaching consequences for statistical inference from such data. The dissertation answers the questions of whether and to what degree reliable conclusions about the population are still possible in this scenario. In a similar spirit, Part IV investigates how the selection of testing data for (multicriteria) benchmarking algorithms affects the validity of the benchmarking results. Here, a special emphasis is also put on how this validity depends on multiple criteria and on the way they are aggregated. Part III and Part IV fundamentally rely on decision-theoretic embeddings of training and testing data selection, respectively. All in all, the dissertation offers novel insights into quantifying uncertainty originating from data selection in statistics and machine learning. They lead to more robust and reliable methods as well as critical assessments of existing ones. Both aspects contribute to a safer, more sustainable and less harmful usage of machine learning and statistics.

Abstract

Maschinelles Lernen und Statistik ermöglichen Einsichten in etwas Unbekanntes (Population) durch begrenzte Beobachtungen des Unbekannten (Daten) und Annahmen über das Unbekannte (Modell). Diese Einsichten sind mit Unsicherheiten behaftet. Die Quellen der Unsicherheiten können in allen drei Elementen liegen: in der unbekannten Population selbst (nicht reduzierbare Unsicherheit) oder in den Daten und dem Modell (beide reduzierbar). Daten tragen quantitativ und qualitativ zu letzterer Unsicherheit bei. Während die quantitative Komponente selbsterklärend und monokausal ist (zu wenige Beobachtungen), kann die qualitative Komponente auf komplexe Datenerfassung, Vorverarbeitung, Zusammenführung und Ähnliches zurückzuführen sein. Datenzentriertes maschinelles Lernen bezieht sich auf Methoden, die solche Datenauswahlschritte berücksichtigen oder direkt mit sich bringen. Hier werden Daten für zwei Zwecke verwendet: zunächst, um Schlussfolgerungen über die Population zu ziehen (Training) und später dann, um die Qualität dieser Schlussfolgerungen zu bewerten (Test). Diese aus 14 Beiträgen bestehende kumulative Dissertation untersucht die Auswahl dieser beiden Arten von Daten: Trainingsdaten (Teil III, Beiträge 1-9) und Testdaten (Teil IV, Beiträge 10-14). Durch die Quantifizierung der damit verbundenen Unsicherheit setzt sich die vorliegende Dissertation zum Ziel, die Zuverlässigkeit und Vertrauenswürdigkeit des datenzentrierten maschinellen Lernens zu verbessern. Wie sich herausstellen wird, erfordert dieses Unterfangen eine genauere Betrachtung der Wechselwirkungen und Rückkopplungsschleifen zwischen allen drei oben genannten Elementen: Population, Daten und Modell. Die stilisierte Trennung zwischen den drei Elementen wird sich als illusorisch erweisen. Insbesondere wird Teil III der Dissertation zeigen, dass verschiedene Algorithmen des maschinellen Lernens das Modell die Trainingsdaten selbst auswählen lassen, was weitreichende Konsequenzen für die statistische Inferenz aus solchen Daten hat. Die Dissertation beantwortet die Frage, ob und inwieweit in diesem Szenario noch zuverlässige Schlussfolgerungen über die Population möglich sind. In ähnlicher Weise untersucht Teil IV, wie sich die Auswahl von Testdaten für das multikriterielle Benchmarking von Algorithmen auf die Validität der Benchmarking-Ergebnisse auswirkt. Dabei wird auch darauf eingegangen, wie diese Validität von mehreren Kriterien abhängt und insbesondere davon, wie diese Kriterien aggregiert werden. Teil III und Teil IV basieren grundlegend auf entscheidungstheoretischen Einbettungen der Auswahl von Trainings- beziehungsweise von Testdaten. Insgesamt bietet die Dissertation neue Erkenntnisse zur Quantifizierung von Unsicherheiten, die aus der Datenauswahl in der Statistik und im maschinellen Lernen resultieren. Diese führen zu robusteren und zuverlässigeren Methoden sowie zu einer kritischen Bewertung bestehender Methoden. Beides trägt zu einer sichereren, nachhaltigeren und weniger schädlichen Nutzung von maschinellem Lernen und Statistik bei.