Logo Logo
Hilfe
Kontakt
Switch language to English
Explainable boosting algorithms: sparse-group and interaction-aware variable selection in complex data
Explainable boosting algorithms: sparse-group and interaction-aware variable selection in complex data
High-dimensional datasets often exhibit complex group structures and interactions, posing challenges to traditional variable selection methods. This dissertation addresses these challenges through five interrelated papers, each advancing statistical boosting for complex data. The first paper introduces methodological extensions for boosting to enable sparse-group variable selection, called sparse-group boosting. The method is inspired by the sparse-group lasso and utilizes component-wise and group-componentwise ridge regression combined through a mixing parameter. Theoretical properties of the group/variable selection process are studied. Building on this theoretical development, the second paper operationalizes the sparse-group boosting method by introducing the R package 'sgboost', which implements sparse-group boosting and associated model interpretability tools. These include sparse group-variable importance and coefficient paths. Practical guidelines, including R code for using sparse-group boosting, are provided. In addition, a new method for reducing group selection bias for boosting is presented. The aim is to prevent the group size and structure from distorting the selection chances of specific groups. The third paper illustrates the applicability of sparse-group boosting in economic and environmental data analysis. Here, the importance of groups and individual variables is analyzed to explain their contribution to the financial well-being of farmers in Chile and Tunisia. The fourth paper deals with the problem of identifying interactions in high-dimensional data while preserving a stable selection of the main effects using a two-step boosting approach. The method uses componentwise boosting, only considering the main effects. After the first model is stopped, the base-learners are changed such that only interaction effects are boosted, starting with the negative gradient of the first model in the first iteration. The method is used to predict farmers' vulnerability to five different climate hazards. The fifth paper also deals with the problem of stable selection of interaction effects via boosting through a 2-step approach. Instead of fitting a boosted additive model to the observed outcome, the same model is fitted to the predictions of a random forest. The idea is tested in a case study predicting zoo visitors., Hochdimensionale Datensätze weisen oft komplexe Gruppenstrukturen und Interaktionen auf, was herkömmliche Methoden zur Variablenauswahl vor Herausforderungen stellt. Durch fünf miteinander verbundene Arbeiten, befasst sich diese Dissertation sich mit den jewiligen Herausforderungen, um das statistische Boosting für komplexe Daten weiterentwickeln. Die erste Arbeit präsentiert methodische Erweiterungen des Boostings zur sparsamen Auswahl von Gruppenvariablen, das sogenannte Sparse-Group Boosting. Die Methode ist vom Sparse-Group Lasso inspiriert und kombiniert komponentenweise sowie gruppenweise ridge regression durch einen Mischparameter. Die theoretischen Eigenschaften des Selektionsprozesses von Gruppen und Variablen werden untersucht. Im zweiten Beitrag wird das R-Paket „sgboost“ vorgestellt, welches das Sparse-Group Boosting und damit verbundene Werkzeuge zur Modellinterpretation implementiert. Dazu gehören Metriken und Visualisierungen zur Gruppenvariablen-Wichtigkeit und Koeffizientenpfade. Zusätzlich werden praktische Leitlinien einschließlich R-Code für die Verwendung von Sparse-Group Boosting bereitgestellt. Zudem wird eine neue Methode zur Reduktion von Gruppen-Selektionsbias für boosting vorgestellt. Dabei soll verhindert werden, dass die Gruppengröße und Struktur die Auswahlchance einzelner Gruppen verzerrt. Die dritte Arbeit zeigt die Anwendbarkeit von Sparse-Group Boosting bei der Analyse ökonomischer und ökologischer Daten. Dabei wird untersucht, welchen Beitrag Gruppen- und Einzelvariablen zum finanziellen Wohlbefinden von Landwirt:innen in Chile und Tunesien leisten. Die vierte Arbeit widmet sich dem Problem, Interaktionen in hochdimensionalen Daten zu identifizieren, ohne dabei die stabile Auswahl der Haupteffekte zu verlieren. Hierzu wird ein zweistufiger Boosting-Ansatz entwickelt: In der ersten Phase erfolgt komponentenweises Boosting der Haupteffekte. Nach dem Stopp des ersten Modells werden nur noch Interaktionen berücksichtigt, wobei das Modell mit dem negativen Gradienten aus der ersten Phase startet. Die Methode wird für die Vorhersage der Vulnerabilität von Landwirten gegenüber fünf verschiedenen Klimarisiken verwendet. Die fünfte Arbeit befasst sich ebenfalls mit dem Problem der stabilen Auswahl von Interaktionseffekten mittels Boosting durch einen zweistufigen Ansatz. Anstatt ein geboostetes additives Modell an die beobachtete Zielgröße anzupassen, wird das gleiche Modell an die Vorhersagen eines Random Forest angepasst. Die Methode wird in einer Fallstudie zur Prognose von Zoobesuchern getestet.
Sparse-Group Boosting, Variable Selection, High-Dimensional Data, Interaction Detection, Statistical Learning
Obster, Fabian Lukas
2025
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Obster, Fabian Lukas (2025): Explainable boosting algorithms: sparse-group and interaction-aware variable selection in complex data. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of Obster_Fabian_Lukas.pdf]
Vorschau
PDF
Obster_Fabian_Lukas.pdf

25MB

Abstract

High-dimensional datasets often exhibit complex group structures and interactions, posing challenges to traditional variable selection methods. This dissertation addresses these challenges through five interrelated papers, each advancing statistical boosting for complex data. The first paper introduces methodological extensions for boosting to enable sparse-group variable selection, called sparse-group boosting. The method is inspired by the sparse-group lasso and utilizes component-wise and group-componentwise ridge regression combined through a mixing parameter. Theoretical properties of the group/variable selection process are studied. Building on this theoretical development, the second paper operationalizes the sparse-group boosting method by introducing the R package 'sgboost', which implements sparse-group boosting and associated model interpretability tools. These include sparse group-variable importance and coefficient paths. Practical guidelines, including R code for using sparse-group boosting, are provided. In addition, a new method for reducing group selection bias for boosting is presented. The aim is to prevent the group size and structure from distorting the selection chances of specific groups. The third paper illustrates the applicability of sparse-group boosting in economic and environmental data analysis. Here, the importance of groups and individual variables is analyzed to explain their contribution to the financial well-being of farmers in Chile and Tunisia. The fourth paper deals with the problem of identifying interactions in high-dimensional data while preserving a stable selection of the main effects using a two-step boosting approach. The method uses componentwise boosting, only considering the main effects. After the first model is stopped, the base-learners are changed such that only interaction effects are boosted, starting with the negative gradient of the first model in the first iteration. The method is used to predict farmers' vulnerability to five different climate hazards. The fifth paper also deals with the problem of stable selection of interaction effects via boosting through a 2-step approach. Instead of fitting a boosted additive model to the observed outcome, the same model is fitted to the predictions of a random forest. The idea is tested in a case study predicting zoo visitors.

Abstract

Hochdimensionale Datensätze weisen oft komplexe Gruppenstrukturen und Interaktionen auf, was herkömmliche Methoden zur Variablenauswahl vor Herausforderungen stellt. Durch fünf miteinander verbundene Arbeiten, befasst sich diese Dissertation sich mit den jewiligen Herausforderungen, um das statistische Boosting für komplexe Daten weiterentwickeln. Die erste Arbeit präsentiert methodische Erweiterungen des Boostings zur sparsamen Auswahl von Gruppenvariablen, das sogenannte Sparse-Group Boosting. Die Methode ist vom Sparse-Group Lasso inspiriert und kombiniert komponentenweise sowie gruppenweise ridge regression durch einen Mischparameter. Die theoretischen Eigenschaften des Selektionsprozesses von Gruppen und Variablen werden untersucht. Im zweiten Beitrag wird das R-Paket „sgboost“ vorgestellt, welches das Sparse-Group Boosting und damit verbundene Werkzeuge zur Modellinterpretation implementiert. Dazu gehören Metriken und Visualisierungen zur Gruppenvariablen-Wichtigkeit und Koeffizientenpfade. Zusätzlich werden praktische Leitlinien einschließlich R-Code für die Verwendung von Sparse-Group Boosting bereitgestellt. Zudem wird eine neue Methode zur Reduktion von Gruppen-Selektionsbias für boosting vorgestellt. Dabei soll verhindert werden, dass die Gruppengröße und Struktur die Auswahlchance einzelner Gruppen verzerrt. Die dritte Arbeit zeigt die Anwendbarkeit von Sparse-Group Boosting bei der Analyse ökonomischer und ökologischer Daten. Dabei wird untersucht, welchen Beitrag Gruppen- und Einzelvariablen zum finanziellen Wohlbefinden von Landwirt:innen in Chile und Tunesien leisten. Die vierte Arbeit widmet sich dem Problem, Interaktionen in hochdimensionalen Daten zu identifizieren, ohne dabei die stabile Auswahl der Haupteffekte zu verlieren. Hierzu wird ein zweistufiger Boosting-Ansatz entwickelt: In der ersten Phase erfolgt komponentenweises Boosting der Haupteffekte. Nach dem Stopp des ersten Modells werden nur noch Interaktionen berücksichtigt, wobei das Modell mit dem negativen Gradienten aus der ersten Phase startet. Die Methode wird für die Vorhersage der Vulnerabilität von Landwirten gegenüber fünf verschiedenen Klimarisiken verwendet. Die fünfte Arbeit befasst sich ebenfalls mit dem Problem der stabilen Auswahl von Interaktionseffekten mittels Boosting durch einen zweistufigen Ansatz. Anstatt ein geboostetes additives Modell an die beobachtete Zielgröße anzupassen, wird das gleiche Modell an die Vorhersagen eines Random Forest angepasst. Die Methode wird in einer Fallstudie zur Prognose von Zoobesuchern getestet.