Happ, Clara Maria (2017): Statistical methods for data with different dimensions: multivariate functional PCA and scalar-on-image regression. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics
 Preview PDF Happ_Clara_Maria.pdf 10MB

### Abstract

This thesis addresses the joint analysis of data with different dimensions, such as scalars, vectors, functions and images. This is of high practical and methodological relevance, as in the course of the technical progress, data with increasing complexity and dimensionality becomes available, requiring the extension of statistical models to new types of data and leading to the development of completely new statistical methods. In the first part of the thesis, multivariate functional principal component analysis (MFPCA) is developed for functional data on different dimensional domains. This is a novel method, as existing approaches for MFPCA are restricted to multivariate functional data on the same, one-dimensional interval. Using the new approach, principal components for data consisting e.g. of functions and images (i.e. functions on a two-dimensional domain) can be obtained, taking potential covariation in the elements into account. The thesis constructs a thorough theoretical basis for multivariate functional data on different dimensional domains and derives a theoretical relationship between univariate and multivariate functional principal component analysis for finite sample sizes. The results can be used to estimate multivariate functional principal components, eigenvalues and scores based on their univariate counterparts. It is shown how the method can be extended to univariate elements in general basis representations and to a weighted version of MFPCA to correct for differences in domain, range or variation of the elements. The approach is also applicable for sparse data or data with measurement error. The finite sample performance of the new method is evaluated in a simulation study with different levels of complexity. Moreover, asymptotic properties for large sample sizes are derived in two theorems, using results from perturbation theory and showing consistency of the proposed estimators. The estimation algorithm has been implemented in a publicly available R-package MFPCA, together with another R-package funData for representing functional data in an object-oriented manner. The thesis provides an introduction to the software and the underlying concepts. The new approach is illustrated in an application to a neuroimaging dataset. The aim here is to examine the relationship between trajectories of a neuropsychological test score over time and FDG-PET brain scans at baseline, that can be interpreted as functions on a three-dimensional domain, as the latter might be predictive of subsequent cognitive decline. The results show that estimates obtained from the new MFPCA method are meaningful from a medical point of view and provide new insights into the data. The second part of the thesis is concerned with scalar-on-image regression. This class of statistical methods models the relation of a scalar outcome and an image predictor, hence data with different dimensions and a complex dependence structure. It is representative for a broad class of statistical models for complex data, which intrinsically is unidentifiable, as in general the number of observations will be low compared to the number of pixels in the image. Strong model assumptions are thus required to obtain a unique solution, which is of course conditional on the hypotheses made on the true coefficient image. In the thesis, different models for scalar-on-image regression with different assumptions are compared with respect to their ability to give reliable and interpretable estimates. To this end, new measures for quantifying the influence of model assumptions are developed and analyzed in a simulation study for nine different scalar-on-image models. The relevance of the topic is illustrated in a practical neuroimaging application. It is shown that different models with different assumptions can lead to results that share common patterns, but can differ substantially in their details, as model assumptions can have a strong influence on the estimates. This can entail the risk of over-interpreting effects that are mainly driven by the model assumptions.

### Abstract

Diese Doktorarbeit beschäftigt sich mit der gemeinsamen Analyse von Daten unterschiedlicher Dimension, wie beispielsweise Skalare, Vektoren, Funktionen und Bilder. Dies ist sowohl aus praktischer als auch aus methodischer Sicht relevant, da im Zuge des technischen Fortschritts Daten mit zunehmender Komplexität und Dimensionalität zur Verfügung stehen, die einerseits eine Erweiterung von statistischen Modellen auf neue Datentypen erfordern und andererseits zur Entwicklung völlig neuer statistischer Methoden führen. Im ersten Teil der Arbeit wird eine multivariate funktionale Hauptkomponentenanalyse (engl. multivariate functional principal component analysis, MFPCA) für funktionale Daten auf unterschiedlich-dimensionalen Trägern entwickelt. Es handelt sich hier um eine neuartige Methode, da bestehende Ansätze für MFPCA auf multivariate funktionale Daten auf einem gemeinsamen eindimensionalen Intervall beschränkt sind. Mit dem neu entwickelten Ansatz können Hauptkomponenten für Daten bestimmt werden, die z.B. aus Funktionen und Bildern (d.h. Funktionen auf einem zwei-dimensionalen Träger) bestehen, womit eventuell vorhandene Kovariation in den Elementen berücksichtigt werden kann. In der Arbeit werden die theoretischen Grundlagen für multivariate funktionale Daten auf unterschiedlich-dimensionalen Trägern gelegt. Für den Fall einer endlichen Stichprobe wird anschließend einen theoretischen Zusammenhang zwischen univariater und multivariater funktionaler Hauptkomponentenanalyse hergeleitet. Das Ergebnis kann zur Schätzung multivariater funktionaler Hauptkomponenten, Eigenwerte und Scores auf Basis der univariaten Analoga genutzt werden. Es wird gezeigt, wie die Methode auf univariate Elemente in allgemeinen Basisdarstellungen erweitert werden kann. Weiterhin wird eine gewichtete Version der MFPCA vorgestellt, mithilfe derer für Unterschiede im Träger, Wertebereich oder Variation der einzelnen Elemente korrigiert werden kann. Der neue Ansatz eignet sich auch für funktionale Daten mit wenig Beobachtungspunkten (engl. sparse data) oder Daten, die mit Messfehlern erhoben wurden. Für den Fall endlicher Stichproben wird die Leistungsfähigkeit der neuen Methode im Rahmen einer Simulationsstudie mit unterschiedlichen Komplexitätsgraden untersucht. Darüberhinaus werden die asymptotischen Eigenschaften für große Stichproben in zwei Theoremen unter Verwendung von Resultaten aus der Perturbationstheorie hergeleitet und es wird bewiesen, dass die vorgeschlagenen Schätzer konsistent sind. Der Schätzalgorithmus ist in dem öffentlich verfügbaren R-Paket MFPCA implementiert, gemeinsam mit einem weiteren R-Paket funData zur objektorientierten Darstellung funktionaler Daten. Die Arbeit enthält eine Einführung in die Software und die zugrundeliegenden Konzepte. Die neue Methode wird in einem Anwendungskapitel anhand eines Neuroimaging Datensatzes illustriert. Ziel der Untersuchung ist es, einen Zusammenhang zwischen den Ergebnissen eines neuropsychologischen Tests über den Studienverlauf und FDG-PET Gehirnscans herzustellen, die zu Beginn der Studie aufgenommen wurden, da Letztere prädiktiv für eine anschließende Verschlechterung der kognitiven Fähigkeiten sein können. Die Scans können dabei als Funktionen auf einem drei-dimensionalen Träger aufgefasst werden. Die Ergebnisse zeigen, dass die von der neuen MFPCA Methode gefundenen Schätzer medizinisch sinnvoll sind und neue Einblicke in die Daten ermöglichen. Der zweite Teil der Arbeit beschäftigt sich mit Skalar-auf-Bild Regression. Diese statistische Modellklasse beschreibt den Zusammenhang einer skalaren Zielgröße und einer Einflussgröße in Form eines Bildes, also Daten mit unterschiedlicher Dimension und einer komplexen Abhängigkeitsstruktur. Sie steht stellvertretend für eine breite Klasse statistischer Modelle für komplexe Daten, die von sich aus nicht identifizierbar ist, da im Allgemeinen die Anzahl der Beobachtungen im Verhältnis zur Anzahl der Pixel in einem Bild sehr klein ist. Es sind also starke Modellannahmen vonnöten, um eine eindeutige Lösung zu erhalten, die selbstverständlich durch die Annahmen an das wahre Koeffizientenbild bedingt wird. In dieser Arbeit werden unterschiedliche Modelle für Skalar-auf-Bild Regression mit unterschiedlichen Annahmen in Bezug auf ihre Fähigkeit, zuverlässige und interpretierbare Ergebnise zu erzielen, untersucht. Zu diesem Zweck werden neue Maße zur Quantifizierung des Einflusses von Modellannahmen entwickelt und in einer Simulationsstudie für neun verschiedene Skalar-auf-Bild Regressionsmodelle untersucht. Die Bedeutung der Thematik wird wiederum in einer praktischen Anwendung aus dem Neuroimaging-Bereich veranschaulicht. Es wird gezeigt, dass unterschiedliche Modelle mit unterschiedlichen Annahmen zu Ergebnissen führen können, die zwar ähnliche Muster aufweisen, sich in Details aber zum Teil deutlich unterscheiden, da die Modellannahmen einen starken Einfluss auf die Schätzungen haben können. Dies bringt die mögliche Gefahr mit sich, Effekte zu überinterpretieren, die hauptsächlich von den Modellannahmen getrieben sind.