| Classe, Franz (2025): Machine learning approaches to latent variable modeling. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik |
Vorschau |
PDF
classe_franz.pdf 10MB |
Abstract
Diese Arbeit enthält vier Beiträge (Manuskripte I bis IV), die jeweils neue methodische Ansätze zum Umgang mit Verzerrungen und Bias in mehrdimensionalen IRT-Modellen einführen. Insbesondere wird das Potenzial nichtparametrischer, maschineller Lernverfahren eingehend untersucht. Die im Rahmen dieser Arbeit verfassten Manuskripte stellen Methoden zur Schätzung von Modellparametern und latenten Variablen-Scores multidimensionaler IRT-Modelle vor. Diese Methoden berücksichtigen die Verzerrung, die ungemessene und/oder gemessene Kovariaten auf die Parameterschätzung haben können. In Manuskript I wird gezeigt, dass die Einbeziehung von latenten Item-Effekt-Variablen in longitudinale IRT-Modelle für ordinale Antwortvariablen interindividuelle Unterschiede in den Item-Schwierigkeits-Parametern kontrollieren kann. Auf diese Weise wird die Verzerrung, die gemessene oder nicht gemessene Kovariaten auf die Schätzung der Item-Schwierigkeits-Parameter haben können, berücksichtigt. Außerhalb der Längsschnittforschung ist es nicht möglich, solche Item-Effekt-Variablen zu schätzen. Interindividuelle Unterschiede in den Item-Parametern, die auch als Differential Item Functioning (DIF) bezeichnet werden, können jedoch mit Hilfe von Model Based Recursive Partitioning (MOB) berücksichtigt werden, einem algorithmischen Modellierungsansatz, der aus den Methoden des maschinellen Lernens stammt. Manuskript II zeigt, dass MOB zur Kontrolle von DIF in mehrdimensionalen IRT-Modellen verwendet werden kann. Dies funktioniert, indem automatisch Untergruppen mit stabilen Item-Parameterschätzungen erkannt werden. Manuskript III stellt eine Methode zur Schätzung latenter Variablen-Scores von Individuen vor, die in Bezug auf bestimmte gemessene Kovariaten unverzerrt sind. Zu diesem Zweck wird ein Ensemble von MOB-Trees gebildet. Innerhalb des MOB-Tree-Ensembles werden Untergruppen mit stabilen Item-Parameter-Schätzungen verwendet, um latente Variablen-Scores zu schätzen, die in Bezug auf relevante Untergruppen in der Population unverzerrt sind. Somit sind diese latenten Variablen-Scores im Hinblick auf systematische Einflüsse dieser gemessenen Kovariablen interpretierbar, ohne durch diese Variablen verzerrt zu werden. Um einen MOB-Tree zu erstellen, muss ein Parameterinstabilitätstest wiederholt für ein (mehrdimensionales) IRT-Modell berechnet werden. Mehrdimensionale IRT-Modelle werden effizient als ordinale Faktorenmodelle geschätzt. Für das Modell wird die erste Ableitung der Zielfunktion (d.h. die Score-Funktion) verwendet, um die Parameterinstabilität zu schätzen. In Manuskript IV wird daher eine Methode zur Schätzung der individuellen Beiträge zu dieser Funktion für ordinale Faktorenmodelle vorgeschlagen. Dadurch wird es möglich, viele Parameterinstabilitätstests für mehrdimensionale IRT-Modelle in kurzer Zeit zu berechnen. Die mit diesen vier Beiträgen vorgestellten Methoden ermöglichen die effiziente Berechnung von Parameterinstabilitätstests für mehrdimensionale IRT Modelle, die Schätzung individueller Schwierigkeits-Parameter in Längsschnittkontexten und latenter Variablen-Scores, die außerhalb von Längsschnittkontexten in Bezug auf spezifische gemessene Kovariaten unverzerrt sind.
Abstract
This thesis contains four contributions (Papers I to IV) which present approaches to dealing with bias in multidimensional IRT models. In particular, the potential of nonparametric tree-based machine learning methods is examined in detail. The papers written in the scope of this thesis provide methods to estimate model parameters and latent variable scores of multidimensional IRT models while considering the bias that unmeasured and/or measured covariates may have on parameter estimation. In Paper I, it is shown that the inclusion of latent item effect variables in longitudinal IRT models for ordinal response variables can control for inter-individual differences in item difficulty parameters. This way, the bias that measured or unmeasured covariates may have on the estimation of the item difficulty parameters is taken into account. Outside of longitudinal research, it is not possible to estimate such item effect variables. However, inter-individual differences in item parameters, also referred to as Differential Item Functioning (DIF), can be accounted for via Model Based Recursive Partitioning (MOB), an algorithmic modeling approach borrowed from the tree-based methods of machine learning. Paper II illustrates that MOB can be used to control for DIF in multidimensional IRT models. For such models, MOB may be used to automatically detect subgroups with stable item parameter estimates. Paper III introduces a method to estimate latent variable scores of individuals that are unbiased with respect to certain measured covariates. For this, an ensemble of MOB trees is grown. Within the MOB tree ensemble, subgroups with stable item parameter estimates are used to estimate latent variable scores that are unbiased with respect to relevant subgroups in the population. Thus, these latent variable scores are interpretable with respect to systematic influences of specific measured covariates without being biased by these variables. In order to grow a MOB tree, a parameter instability test must be computed repeatedly for a fitted (multidimensional) IRT model. Multidimensional IRT models are efficiently fitted as ordinal factor models. For the fitted model, the first derivative of the objective function (i.e.~the score function) is used to estimate parameter instability. In Paper IV, a method for the estimation of individual contributions to this score function for ordinal factor models is therefore proposed. This makes it computationally feasible to repeatedly compute parameter instability tests for multidimensional IRT models. The methods introduced with these four contributions make it possible to efficiently compute parameter instability tests for MIRT models, to estimate individual difficulty parameters in longitudinal settings and latent variable scores that are unbiased w.r.t.~specific measured covariates outside of longitudinal settings.
| Dokumententyp: | Dissertationen (Dissertation, LMU München) |
|---|---|
| Themengebiete: | 000 Allgemeines, Informatik, Informationswissenschaft
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik |
| Fakultäten: | Fakultät für Mathematik, Informatik und Statistik |
| Sprache der Hochschulschrift: | Englisch |
| Datum der mündlichen Prüfung: | 25. Juli 2025 |
| 1. Berichterstatter:in: | Kreuter, Frauke |
| MD5 Prüfsumme der PDF-Datei: | ccb6f0d229dad1aae108b203329a4815 |
| Signatur der gedruckten Ausgabe: | 0001/UMC 31460 |
| ID Code: | 35815 |
| Eingestellt am: | 24. Sep. 2025 08:51 |
| Letzte Änderungen: | 30. Sep. 2025 14:21 |