Logo Logo
Hilfe
Kontakt
Switch language to English
Re-evaluating the machine learning pipeline to improve fairness and reliability
Re-evaluating the machine learning pipeline to improve fairness and reliability
Across the world, an increasing number of decisions are, at least partially, automated using machine learning (ML) or artificial intelligence (AI) models, in what is typically referred to as algorithmic decision-making (ADM). The introduction of ADM systems has brought about significant transformations across a wide range of domains. However, these developments have not come without challenges: serious concerns have been raised about the ethical implications of automating (high-stakes) decisions, and numerous real-world examples illustrate how such systems can facilitate harm. Issues such as bias, discrimination, and a lack of transparency or accountability can often lead to outcomes that are unfair. Building an ML, AI, or ADM system is typically a complex process involving multiple steps or stages that collectively form a pipeline. The stages along this pipeline include, but are not limited to, creation or choice of data, (pre-)processing of data, selection of a model type and architecture, model training, evaluation, and ultimately deployment and potentially decision-making. Each of the steps along this pipeline comes with a multitude of decisions. However, these decisions are often made ad hoc and might not even be recognized as such when they are made or as having alternative options. As decisions are often independent of each other, they together form a garden of forking paths, with the number of combinations of choices between decisions growing exponentially. Each pathway through this garden of forking paths can be seen as a plausible universe of choices. The resulting set of universes is often referred to as a multiverse and systematically explored in a ``multiverse analysis''. Navigating this multiverse is important as decisions affect not only real-world systems but also the development and evaluation of new methodologies. This thesis offers a critical re-evaluation of the traditional machine learning pipeline. In this work, I systematically examine the different stages across the machine learning pipeline and the decisions made within each, questioning common defaults in search of better alternatives. The thesis begins by describing problematic data practices we observed when reviewing research on fairness in machine learning. It continues by proposing multiverse analyses as a methodology for machine learning and, in particular, algorithmic fairness to evaluate robustness and mitigate potential issues of fairness hacking. Next, it shows how participatory input can be used to address problematic data practices, followed by the introduction of a new corpus and analysis of datasets in fair classification research. The thesis concludes with introducing a software implementation that explores the integration of machine learning-based suggestions within an interactive survey context., Weltweit werden immer mehr Entscheidungen mithilfe von Machine Learning (ML) oder künstlicher Intelligenz (KI; engl.: artificial intelligence, AI) teilweise oder vollständig automatisiert. Dies wird üblicherweise als algorithmische Entscheidungsfindung (engl.: algorithmic decision-making, ADM) bezeichnet. Die Einführung von ADM-Systemen hat in einer Vielzahl von Bereichen bereits zu starken Veränderungen geführt, allerdings nicht ohne Herausforderungen: Die Automatisierung (potenziell folgenschwerer) Entscheidungen wirft ernsthafte Bedenken hinsichtlich ethischer Implikationen auf. Zusätzlich veranschaulichen zahlreiche Beispiele aus der Praxis, wie Systeme dieser Art Schaden anrichten können: Ungleiche Entscheidungstendenzen, Verantwortungsdiffusion, Diskriminierung sowie ein Mangel an Transparenz können oft zu unfairen Ergebnissen führen. Ein ML-, KI- oder ADM-Systems zu designen ist in der Regel ein komplexer Prozess und umfasst mehrere Schritte, die zusammen eine Pipeline bilden. Zu den Phasen dieser Pipeline gehören unter anderem das Erstellen oder die Auswahl von Datensätzen, die (Vor-)Verarbeitung von Daten, die Auswahl eines Modelltyps / einer Architektur, das Trainieren eines Modells, die Evaluation des Modells und schließlich die Inbetriebnahme und automatisierte Entscheidungsfindung. Jeder der Schritte entlang dieser Pipeline ist mit einer Vielzahl von Entscheidungen verbunden. Diese Entscheidungen werden jedoch häufig ad hoc getroffen und möglicherweise nicht immer als solche erkannt. Selbst wenn eine Entscheidung bewusst getroffen wird, besteht nicht immer Bewusstsein über mögliche Alternativen. Da die Entscheidungen oft unabhängig voneinander sind, bilden sie zusammen einen Garten verzweigter Pfade (engl.: garden of forking paths), wobei die Anzahl der möglichen Kombinationen zwischen Entscheidungen mit jeder zusätzlichen Entscheidung exponentiell wächst. Jeder Pfad durch diesen Garten kann als plausibles Universum an Entscheidungen betrachtet werden. Die daraus resultierenden Universen werden oft als Multiverse bezeichnet und in einer Multiverse-Analyse (engl.: multiverse analysis) systematisch untersucht. Die Navigation durch dieses Multiverse ist wichtig, da Entscheidungen nicht nur aktiv genutzte Systeme beeinflussen können, sondern auch die Entwicklung neuer Methoden und Algorithmen. In dieser Dissertation stelle ich eine kritische Re-Evaluation der traditionellen ML-Pipeline vor. Ich untersuche systematisch die verschiedenen Schritte entlang der ML-Pipeline und hinterfrage gängige Entscheidungen in jedem Schritt auf der Suche nach potenziell besseren Alternativen. Die Dissertation beginnt mit einer Beschreibung problematischer Praktiken beim Umgang mit Daten in der Forschung zu Fairness in ML und AI. Anschließend werden Multiverse-Analysen als Methodik für ML adaptiert. Als Nächstes wird demonstriert, wie Multiverse-Analysen für Untersuchungen zu Fairness in ML genutzt werden können, um u.a. potenziellen ``Fairness-Hacking''-Problemen vorzubeugen. Danach wird zunächst gezeigt, wie partizipatives Design (engl.: participatory design) dabei helfen kann, einen Teil der zuvor genannten, problematischen Praktiken im Umgang mit Daten zu verhindern. Daraufhin wird ein neuer Korpus aus Datensätzen aus der Forschung zu fairen Klassifizierungsalgorithmen vorgestellt, inklusive einer Analyse dieser Datensätze. Die Dissertation schließt mit mehreren Softwareprojekten, unter anderem einer Applikation, welche die interaktive Nutzung von ML-generierten Vorschlägen in Umfragen untersucht.
machine learning, algorithmic fairness, algorithmic decision making, multiverse analysis
Simson, Jan
2026
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Simson, Jan (2026): Re-evaluating the machine learning pipeline to improve fairness and reliability. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of Simson_Jan.pdf]
Vorschau
PDF
Simson_Jan.pdf

6MB

Abstract

Across the world, an increasing number of decisions are, at least partially, automated using machine learning (ML) or artificial intelligence (AI) models, in what is typically referred to as algorithmic decision-making (ADM). The introduction of ADM systems has brought about significant transformations across a wide range of domains. However, these developments have not come without challenges: serious concerns have been raised about the ethical implications of automating (high-stakes) decisions, and numerous real-world examples illustrate how such systems can facilitate harm. Issues such as bias, discrimination, and a lack of transparency or accountability can often lead to outcomes that are unfair. Building an ML, AI, or ADM system is typically a complex process involving multiple steps or stages that collectively form a pipeline. The stages along this pipeline include, but are not limited to, creation or choice of data, (pre-)processing of data, selection of a model type and architecture, model training, evaluation, and ultimately deployment and potentially decision-making. Each of the steps along this pipeline comes with a multitude of decisions. However, these decisions are often made ad hoc and might not even be recognized as such when they are made or as having alternative options. As decisions are often independent of each other, they together form a garden of forking paths, with the number of combinations of choices between decisions growing exponentially. Each pathway through this garden of forking paths can be seen as a plausible universe of choices. The resulting set of universes is often referred to as a multiverse and systematically explored in a ``multiverse analysis''. Navigating this multiverse is important as decisions affect not only real-world systems but also the development and evaluation of new methodologies. This thesis offers a critical re-evaluation of the traditional machine learning pipeline. In this work, I systematically examine the different stages across the machine learning pipeline and the decisions made within each, questioning common defaults in search of better alternatives. The thesis begins by describing problematic data practices we observed when reviewing research on fairness in machine learning. It continues by proposing multiverse analyses as a methodology for machine learning and, in particular, algorithmic fairness to evaluate robustness and mitigate potential issues of fairness hacking. Next, it shows how participatory input can be used to address problematic data practices, followed by the introduction of a new corpus and analysis of datasets in fair classification research. The thesis concludes with introducing a software implementation that explores the integration of machine learning-based suggestions within an interactive survey context.

Abstract

Weltweit werden immer mehr Entscheidungen mithilfe von Machine Learning (ML) oder künstlicher Intelligenz (KI; engl.: artificial intelligence, AI) teilweise oder vollständig automatisiert. Dies wird üblicherweise als algorithmische Entscheidungsfindung (engl.: algorithmic decision-making, ADM) bezeichnet. Die Einführung von ADM-Systemen hat in einer Vielzahl von Bereichen bereits zu starken Veränderungen geführt, allerdings nicht ohne Herausforderungen: Die Automatisierung (potenziell folgenschwerer) Entscheidungen wirft ernsthafte Bedenken hinsichtlich ethischer Implikationen auf. Zusätzlich veranschaulichen zahlreiche Beispiele aus der Praxis, wie Systeme dieser Art Schaden anrichten können: Ungleiche Entscheidungstendenzen, Verantwortungsdiffusion, Diskriminierung sowie ein Mangel an Transparenz können oft zu unfairen Ergebnissen führen. Ein ML-, KI- oder ADM-Systems zu designen ist in der Regel ein komplexer Prozess und umfasst mehrere Schritte, die zusammen eine Pipeline bilden. Zu den Phasen dieser Pipeline gehören unter anderem das Erstellen oder die Auswahl von Datensätzen, die (Vor-)Verarbeitung von Daten, die Auswahl eines Modelltyps / einer Architektur, das Trainieren eines Modells, die Evaluation des Modells und schließlich die Inbetriebnahme und automatisierte Entscheidungsfindung. Jeder der Schritte entlang dieser Pipeline ist mit einer Vielzahl von Entscheidungen verbunden. Diese Entscheidungen werden jedoch häufig ad hoc getroffen und möglicherweise nicht immer als solche erkannt. Selbst wenn eine Entscheidung bewusst getroffen wird, besteht nicht immer Bewusstsein über mögliche Alternativen. Da die Entscheidungen oft unabhängig voneinander sind, bilden sie zusammen einen Garten verzweigter Pfade (engl.: garden of forking paths), wobei die Anzahl der möglichen Kombinationen zwischen Entscheidungen mit jeder zusätzlichen Entscheidung exponentiell wächst. Jeder Pfad durch diesen Garten kann als plausibles Universum an Entscheidungen betrachtet werden. Die daraus resultierenden Universen werden oft als Multiverse bezeichnet und in einer Multiverse-Analyse (engl.: multiverse analysis) systematisch untersucht. Die Navigation durch dieses Multiverse ist wichtig, da Entscheidungen nicht nur aktiv genutzte Systeme beeinflussen können, sondern auch die Entwicklung neuer Methoden und Algorithmen. In dieser Dissertation stelle ich eine kritische Re-Evaluation der traditionellen ML-Pipeline vor. Ich untersuche systematisch die verschiedenen Schritte entlang der ML-Pipeline und hinterfrage gängige Entscheidungen in jedem Schritt auf der Suche nach potenziell besseren Alternativen. Die Dissertation beginnt mit einer Beschreibung problematischer Praktiken beim Umgang mit Daten in der Forschung zu Fairness in ML und AI. Anschließend werden Multiverse-Analysen als Methodik für ML adaptiert. Als Nächstes wird demonstriert, wie Multiverse-Analysen für Untersuchungen zu Fairness in ML genutzt werden können, um u.a. potenziellen ``Fairness-Hacking''-Problemen vorzubeugen. Danach wird zunächst gezeigt, wie partizipatives Design (engl.: participatory design) dabei helfen kann, einen Teil der zuvor genannten, problematischen Praktiken im Umgang mit Daten zu verhindern. Daraufhin wird ein neuer Korpus aus Datensätzen aus der Forschung zu fairen Klassifizierungsalgorithmen vorgestellt, inklusive einer Analyse dieser Datensätze. Die Dissertation schließt mit mehreren Softwareprojekten, unter anderem einer Applikation, welche die interaktive Nutzung von ML-generierten Vorschlägen in Umfragen untersucht.