Endres, Eva-Marie (2019): Statistical matching meets probabilistic graphical models: contributions to categorical data fusion. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik |
Vorschau |
PDF
Endres_Eva-Marie.pdf 2MB |
Abstract
Die sekundäre Analyse bereits verfügbarer Daten kann Zeit, Kosten oder andere Ressourcen einsparen. Allerdings kann die Beantwortung bestimmter Fragstellungen gemeinsame Information über Variablen erfordern, die nicht gemeinsam beobachtet wurden. Statistisches Matching, das die Integration von zwei (oder mehreren) Datensätzen ermöglicht, bietet in solchen Situation eine Lösung. Eine notwendige Voraussetzung dafür ist, dass neben den Variablen, die spezifisch nur in einem der beiden Datensatz vorhanden sind, auch gemeinsame Variablen existieren, die in beiden Datensätzen beobachtet wurden. Diese gemeinsamen Variablen werden verwendet, um den Zusammenhang zwischen den spezifischen Variablen auf Basis der verfügbaren Daten zu schätzen. Dazu ist wichtig, dass die gemeinsamen Variablen gute Prädiktoren für die spezifischen Variablen sind. Ein populärer Weg, gemeinsame Information über nicht gemeinsam erhobene Variablen zu erhalten, basiert auf der Annahme, dass die spezifischen Variablen -bedingt auf die gemeinsamen Variablen- unabhängig sind. Im Kontext der ersten drei Beiträge dieser kumulativen Dissertation werden neue Methoden für die kategoriale Datenintegration entwickelt, die auf dieser Annahme beruhen. Alle diese neuen Methoden bedienen sich einer Einbettung von statistischem Matching in die Theorie probabilistischer grafischer Modelle. Dabei bildet die bedingte Unabhängigkeitsannahme die zentrale Schnittstelle zwischen statistischem Matching und probabilistischen grafischen Modellen. Mithilfe gerichteter und ungerichteter Graphen werden Abhängigkeitsstrukturen zwischen Variablen dargestellt und eine geeignete Faktorisierung ihrer gemeinsamen Verteilung ermittelt. Dies ermöglicht die Schätzung einzelner Komponenten der gemeinsamen Verteilung auf unterschiedlichen Teilmengen der gegebenen Datenbasis. Ein weiterer Beitrag dieser Thesis nähert sich dem Problem des statistischen Matchings von kategorialen Daten mit einem vorsichtigeren Lösungsvorschlag, der ohne die Annahme der bedingten Unabhängigkeit auskommt. Es wird ein neues, mengenwertiges Imputationsverfahren vorgeschlagen, das die blockweise fehlenden Beobachtungen der spezifischen Variablen durch Mengen von plausiblen Werten ersetzt. Beitrag 1 befasst sich mit der Schätzung von gerichteten, nicht-zyklischen Graphen auf Teilmengen der vorhandenen Daten. Es werden verschiedene Vorgehensweisen vorgeschlagen, wie diese Subgraphen miteinander zu einem gemeinsamen Bayesnetz kombiniert werden können. Basierend auf dem gemeinsamen, gerichteten Graphen werden diejenigen Faktoren über die Kettenregel für Bayesnetze bestimmt, die die gemeinsame Verteilung aller Variablen bestimmen. Dabei stellt die Annahme der bedingten Unabhängigkeit der spezifischen Variablen gegeben der gemeinsamen Variablen sicher, dass alle Faktoren aus den vorhandenen Daten geschätzt werden können. Beitrag 2 entwickelt einen Ansatz zum statistischen Matching von kategorialen Daten, der auf einem ungerichteten probabilistischen grafischen Modell basiert. Mithilfe der log-linearen Entwicklung der Multinomialverteilung und der Interpretation des ungerichteten Graphen als Interaktionsgraph, wird ein Markovnetz mit log-linearer Parametrisierung für das statistische Matching hergeleitet. Wiederum gewährleistet die bedingte Unabhängigkeitsannahme, dass alle Komponenten der gemeinsamen Verteilung auf den vorhandenen Daten schätzbar sind. Beitrag 3 befasst sich mit einem Spezialfall von Beitrag 2, nämlich der Integration von binären Daten mithilfe des Ising-Modells. Hierbei handelt sich um ein paarweises Markovnetz, das Interaktionen bis zur maximalen Ordnung zwei zulässt. Die Schätzung der gemeinsamen Verteilung kann für diesen Spezialfall deutlich vereinfacht werden. Beitrag 4 interpretiert die Datensituation des statistischen Matchings als Problem fehlender Daten. Fehlende Beobachtungen der spezifischen Variablen werden bei der neu vorgeschlagenen unpräzisen Imputation durch Mengen von plausiblen Werten ersetzt. Auf Basis dieser --zum Teil mengenwertigen-- Beobachtungen werden untere und obere Schranken für die Wahrscheinlichkeitskomponenten der gemeinsamen Verteilung von gemeinsamen und spezifischen Variablen berechnet. Als Basis für diese Schätzung dient die Theorie der Random Sets.
Abstract
The secondary analysis of already available data can save time, money or other resources. However, answering certain research questions may require joint information about variables that were not observed together. Statistical matching, which allows the integration of two (or more) data files, provides a solution for these situations. The prerequisite for this is that in addition to the variables that are only present in one of the two files, there are also common variables that were observed in both files. These common variables are used to estimate the relation between the specific variables based on the available database. For this purpose, it is important that the common variables are good predictors of the specific variables. A popular way of obtaining joint information about not jointly observed variables is premised on the assumption that the specific variables are conditionally independent given the common variables. Based on this assumption, new methods for the integration of categorical data are developed in the context of the first three contributions of this cumulative dissertation. All of these new methods use an embedding of statistical matching into the theory of probabilistic graphical models. The conditional independence assumption provides the central interface between statistical matching and probabilistic graphical models. Using directed and undirected graphs, dependence structures between variables are represented and an appropriate factorization of their joint distribution is determined. This factorization allows the estimation of all components of the joint distribution of the common and specific variables on different subsets of the given data. A further contribution to this thesis approaches the problem of statistically matching categorical data with a more cautious solution that works without the assumption of conditional independence. A new, set-valued imputation method is proposed which replaces the block-wise missing observations of the specific variables with sets of plausible values. Contribution 1 deals with the estimation of directed acyclic graphs on subsets of the available data, and proposes different ways of combining these subgraphs into a joint Bayesian network. On basis of this joint graph, the factors determining the joint distribution of all variables are obtained by the chain rule for Bayesian networks. The assumption of conditional independence of the specific variables given the common variables ensures that all factors are estimable from the available data. Contribution 2 develops an approach for statistical matching of categorical data based on an undirected probabilistic graphical model. Using the log-linear expansion of the multinomial distribution and the interpretation of the undirected graph as an interaction graph, a Markov network with log-linear parameterization is derived. Again, the conditional independence assumption ensures that all components of the joint distribution are estimable on the existing data. Contribution 3 deals with a special case of Contribution 2, namely the integration of binary data using the Ising model. This is a pairwise Markov network that allows only interactions up to the maximum order of two. The estimation of the joint distribution can be markedly simplified for this special case. Contribution 4 interprets the data situation of statistical matching as a missing data problem. The newly developed imprecise imputation replaces the missing observations of specific variables by sets of plausible values. On the basis of these partially set-valued observations, lower and upper bounds are calculated for the probability components of the joint distribution of the common and specific variables. As basis for this estimation, we use the theory of random sets.
Dokumententyp: | Dissertationen (Dissertation, LMU München) |
---|---|
Themengebiete: | 300 Sozialwissenschaften
300 Sozialwissenschaften > 310 Statistik |
Fakultäten: | Fakultät für Mathematik, Informatik und Statistik |
Sprache der Hochschulschrift: | Englisch |
Datum der mündlichen Prüfung: | 24. Juni 2019 |
1. Berichterstatter:in: | Augustin, Thomas |
MD5 Prüfsumme der PDF-Datei: | 54fef6d7fffb5248cecab21c8ca46ade |
Signatur der gedruckten Ausgabe: | 0001/UMC 26432 |
ID Code: | 24400 |
Eingestellt am: | 09. Jul. 2019 10:30 |
Letzte Änderungen: | 23. Oct. 2020 15:23 |