Dandl, Susanne (2023): Causality concepts in machine learning: heterogeneous treatment effect estimation with machine learning & model interpretation with counterfactual and semi-factual explanations. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics |
Preview |
PDF
Dandl_Susanne.pdf 20MB |
Abstract
Over decades, machine learning and causality were two separate research fields that developed independently of each other. It was not until recently that the exchange between the two intensified. This thesis comprises seven articles that contribute novel insights into the utilization of causality concepts in machine learning and highlights how both fields can benefit from one another. One part of this thesis focuses on adapting machine learning algorithms for estimating heterogeneous treatment effects. Specifically, random forest-based methods have demonstrated to be a powerful approach to heterogeneous treatment effect estimation; however, understanding the key elements responsible for that remains an open question. To provide answers, one contribution analyzed which elements of two popular forest-based heterogeneous treatment effect estimators – causal forests and model-based forests – are beneficial in case of real-valued outcomes. A simulation study reveals that model-based forests' simultaneous split selection based on prognostic and predictive effects is effective for randomized controlled trials, while causal forests' orthogonalization strategy is advantageous for observational data under confounding. Another contribution shows that combining these elements yields a versatile model framework applicable to a wide range of application cases: observational data with diverse outcome types, potentially under different forms of censoring. Another part focuses on two methods that leverage causality concepts to interpret machine learning models: counterfactual explanations and semi-factual explanations. Counterfactual explanations describe minimal changes in a few features required for changing a prediction, while semi-factual explanations describe maximal changes in a few features required for not changing a prediction. These insights are valuable because they reveal which features do or do not affect a prediction, and they can help to object against or justify a prediction. The existence of multiple equally good counterfactual explanations and semi-factual explanations for a given instance is often overlooked in the existing literature. This is also pointed out in the first contribution of the second part, which deals with possible pitfalls of interpretation methods, potential solutions, and open issues. To address the multiplicity of counterfactual explanations and semi-factual explanations, two contributions propose methods to generate multiple explanations: The underlying optimization problem was formalized multi-objectively for counterfactual explanations and as a hyperbox search for semi-factual explanations. Both approaches can be easily adapted to other use cases, with another contribution demonstrating how the multi-objective approach can be applied to assess counterfactual fairness. Despite the multitude of counterfactual methods proposed in recent years, the availability of methods for users of the programming language R remains extremely limited. Therefore, another contribution introduces a modular R package that facilitates the application and comparison of multiple counterfactual explanation methods.
Abstract
Über Jahrzehnte waren maschinelles Lernen und Kausalität zwei getrennte Forschungsbereiche, die sich unabhängig voneinander entwickelten. Erst in jüngster Zeit hat sich der Austausch zwischen den beiden Bereichen intensiviert. Diese Arbeit umfasst sieben Artikel, die neue Einblicke in die Nutzung von Kausalitätskonzepten im maschinellen Lernen geben, und zeigt, wie beide Bereiche voneinander profitieren können. Ein Teil dieser Arbeit befasst sich mit der Anpassung von Algorithmen des maschinellen Lernens zur Schätzung heterogener Behandlungseffekte. Insbesondere Random-Forest-Methoden haben sich als leistungsfähiger Ansatz für die Behandlungseffekt-Schätzung erwiesen; das Verständnis der Schlüsselelemente, die dafür verantwortlich sind, bleibt jedoch eine offene Frage. Um Antworten zu finden, wurde in einem Beitrag analysiert, welche Elemente von zwei beliebten Random-Forest-Schätzern - Causal Forests und Model-based Forests - im Fall von reellwertigen Zielvariablen von Vorteil sind. Eine Simulationsstudie zeigt, dass die gleichzeitige Split-Auswahl von Model-based Forests auf der Grundlage von prognostischen und prädiktiven Effekten für randomisierte kontrollierte Studien effektiv ist, während die Orthogonalisierungsstrategie der Causal Forests für Beobachtungsdaten mit Confoundern von Vorteil ist. Ein weiterer Beitrag zeigt, dass die Kombination dieser Elemente ein vielseitiges Framework für Modelle ergibt, welches auf viele verschiedene Fälle anwendbar ist: Beobachtungsdaten mit verschiedenen Arten von Zielvariablen, möglicherweise unter verschiedenen Formen von Zensierung. Ein weiterer Teil dieser Arbeit konzentriert sich auf zwei Methoden, die Kausalitätskonzepte zur Interpretation von Modellen des maschinellen Lernens nutzen: Counterfactual Explanations (kontrafaktische Erklärungen) und Semi-factual Explanations (semi-faktische Erklärungen). Counterfactual Explanations beschreiben minimale Änderungen in einigen wenigen Merkmalen, die für die Änderung einer Vorhersage erforderlich sind, während Semi-factual Explanations maximale Änderungen in einigen wenigen Merkmalen beschreiben, die zu keiner Änderung der Vorhersage führen. Diese Erkenntnisse sind wertvoll, weil sie zeigen, welche Merkmale eine Vorhersage beeinflussen und welche nicht, und sie können helfen, eine Vorhersage zu widerlegen oder zu rechtfertigen. Die Existenz mehrerer gleich guter Counterfactual Explanations und Semi-factual Explanations für einen Datenpunkt wird in der bestehenden Literatur oft übersehen. Darauf weist auch der erste Beitrag des zweiten Teils hin, der sich mit möglichen Fallstricken von Interpretationsmethoden, möglichen Lösungen und offenen Fragen befasst. Um der Vielzahl von Counterfactual Explanations und Semi-factual Explanations zu begegnen, werden in zwei Beiträgen Methoden zur Generierung multipler Erklärungen vorgeschlagen: Das zugrundeliegende Optimierungsproblem wurde für Counterfactual Explanations multi-objektiv und für Semi-factual Explanations als Hyperbox-Suche formalisiert. Beide Ansätze können leicht an andere Anwendungsfälle angepasst werden, wobei ein weiterer Beitrag zeigt, wie der multi-objektive Ansatz zur Bewertung der Modellfairness im kontrafaktischen Sinne angewendet werden kann. Trotz der Vielzahl von Counterfactual Explanations Methoden, die in den letzten Jahren vorgeschlagen wurden, ist die Verfügbarkeit von Methoden für Nutzer der Programmiersprache R äußerst begrenzt. Daher wird in einem weiteren Beitrag ein modulares R-Paket vorgestellt, das die Anwendung und den Vergleich mehrerer Counterfactual Explanations Methoden erleichtert.
Item Type: | Theses (Dissertation, LMU Munich) |
---|---|
Subjects: | 000 Computers, Information and General Reference 000 Computers, Information and General Reference > 004 Data processing computer science |
Faculties: | Faculty of Mathematics, Computer Science and Statistics |
Language: | English |
Date of oral examination: | 6. December 2023 |
1. Referee: | Bischl, Bernd |
MD5 Checksum of the PDF-file: | 3752f1fecdf173b1f456866b82d2d4e3 |
Signature of the printed copy: | 0001/UMC 30112 |
ID Code: | 32947 |
Deposited On: | 17. Jan 2024 10:38 |
Last Modified: | 17. Jan 2024 10:38 |