Logo Logo
Help
Contact
Switch language to German
Functional linear mixed models for complex correlation structures and general sampling grids
Functional linear mixed models for complex correlation structures and general sampling grids
Der technologische Fortschritt ermöglicht es heutigen Wissenschaftlern verschiedener Bereiche, zunehmend Daten zu erheben, die aus funktionalen Beobachtungen anstelle von einzelnen Datenpunkten bestehen. Intensive Forschung im Bereich der funktionalen Datenanalyse zielte in den letzten Jahren darauf ab, Methoden zu entwickeln, um das gesamte Potenzial dieser Art von Daten zu erschließen. Viele der vorgeschlagenen Methoden basieren auf der Annahme unabhängiger funktionaler Beobachtungen. In der Praxis kann dies eine große Einschränkung darstellen, da die funktionalen Beobachtungen häufig korreliert sind, beispielsweise aufgrund wiederholter Beobachtungen pro Subjekt oder Gruppierung in den Daten. Der Schwerpunkt dieser Dissertation liegt auf der Analyse von funktionalen Daten mit komplexen Korrelationsstrukturen. Funktionale lineare gemischte Modelle, das funktionale Pendant zu skalaren linearen gemischten Modellen, werden verwendet um korrelierte funktionale Daten zu analysieren. Hierbei werden die zufälligen Effekte der skalaren linearen gemischten Modelle durch Funktionen ersetzt, die über den Träger der beobachteten Daten variieren. Zusätzlich zu der Annahme unabhängiger funktionaler Beobachtungen setzen die meisten bestehenden Methoden voraus, dass die funktionalen Beobachtungen an einer typischerweise großen Anzahl an Beobachtungspunkten vorliegen, die über alle Kurven gleich sind. Diese starke Anforderung wird in Anwendungen oft nicht erfüllt, da funktionale Beobachtungen häufig an kurvenspezifischen, möglicherweise wenigen, irregulären Gitterpunkten vorliegen. Mit dem Ziel, diese Einschränkung zu überwinden, liegt ein besonderer methodologischer Schwerpunkt dieser Dissertation auf der Erweiterung von funktionalen linearen gemischten Modellen und ihrer Schätzung auf Daten, die auf ungleichen Gittern oder sogar spärlich beobachtet werden. Diese Dissertation entwickelt ein neues Modellierungsframework, das sowohl komplexe Korrelationsstrukturen zwischen funktionalen Beobachtungen als auch Beobachtungen auf generellen Gittern behandelt. Bisherige Ansätze erlauben entweder weniger allgemeine Korrelationsstrukturen oder lassen keine generellen Gitter und Spärlichkeit der Beobachtungen zu. Dem funktionalen Charakter der Daten wird Rechnung getragen, indem die Modellterme des additiven Prädiktors in geeigneten Basen dargestellt werden. Zur Darstellung der funktionalen zufälligen Effekte werden Basen aus funktionalen Hauptkomponenten gewählt. Diese können als natürliche funktionale Erweiterungen multivariater Hauptkomponenten angesehen werden und repräsentieren somit die Hauptrichtungen der Variation in den Daten. Durch Verwendung der bedeutendsten Richtungen wird eine, für funktionale Daten besonders entscheidende, Dimensionsreduktion erreicht. In Analogie zum multivariaten Fall entsprechen die funktionalen Hauptkomponenten der funktionalen zufälligen Effekte den Eigenfunktionen der entsprechenden Kovarianzoperatoren. Die Schätzung der Kovarianzen latenter Prozesse ist ein nicht triviales Problem und stellt daher ein zentrales Element dieser Dissertation dar. In den ersten beiden Teilen dieser Arbeit werden zwei neue Momentenschätzer für die Kovarianz latenter Prozesse vorgeschlagen. Sie unterscheiden sich in der Allgemeinheit der angenommenen Korrelationsstrukturen und der unterstützten Beobachtungsgitter. Beide Kovarianzschätzmethoden beinhalten bivariate Glättung von einer oder mehreren Kovarianzen. Im dritten Teil wird ein schneller, symmetrischer bivariater Glättungsansatz vorgeschlagen, der besonders geeignet ist um glatte Kovarianzen zu schätzen, indem er sich deren Symmetrieeigenschaften zunutze macht. Seine Anwendung reduziert sowohl Rechenzeit als auch Speicherbedarf erheblich. Das vorgeschlagene Modellierungsframework wird in umfangreichen Simulationsstudien evaluiert. Die Relevanz der vorgeschlagenen Methoden wird durch Analysen von Daten aus der Sprachproduktionsforschung und aus medizinischen Studien hervorgehoben. Um die praktische Verwendung der Methoden zu ermöglichen, werden open-source Implementationen in den beiden R Paketen denseFLMM und sparseFLMM zur Verfügung gestellt., Technological advances allow today's scientists in various fields to collect an increasing amount of data consisting of functional observations rather than single data points. Intense research in statistical methodology for functional data during the last years has aimed at developing methods that exploit the whole potential of this type of data. Many of the proposed approaches assume that the functional observations are independent. This may be very restrictive in practice, where correlation is frequently induced by, e.g., repeated observations per subject or grouping in the data. The main focus of this thesis is on the analysis of functional data with complex correlation structures. Functional linear mixed models that represent functional counterparts to scalar linear mixed models are applied to analyze correlated functional data. The random effects of scalar linear mixed models are replaced by functions that vary over the same domain as the observed data. In addition to assuming independent functional observations, most existing methods are restricted to functional observation that are available at a typically large number of observation points that are the same across all curves. This strong requirement is often not met in applications, where functional observations are frequently evaluated at curve-specific - possibly few - irregularly spaced points. To overcome this restriction, special methodological emphasis of this thesis is placed on the extension of functional linear mixed models and their estimation to data that are observed on unequal grids or even sparsely. This thesis develops a new estimation framework that addresses both complex correlation structures between functional observations as well as observations on general sampling grids. Previous work is either less general in the assumed correlation structure or does not allow for general grids and sparseness. The functional nature of the data is accounted for by expanding all model terms in the additive predictor in suitable bases. For the functional random effects, bases of functional principal components are chosen. These can be seen as natural functional extensions of multivariate principal components and thus represent the dominant modes of variation in the data. Using only the most important directions provides the dimension reduction critically important for functional data analysis. In analogy to the multivariate case, the functional principal components of the functional random effects correspond to the eigenfunctions of their respective covariance operators. How to estimate covariances of latent processes is non-trivial and thus constitutes an essential element in this thesis. In the first two parts of this work, two novel method of moments estimators for covariances of latent processes are proposed. They differ in the generality of the assumed correlation structures and the supported sampling grids. Both covariance estimation methods involve bivariate smoothing of one or multiple covariances. In the third part, a fast symmetric bivariate smoothing approach is proposed that is particularly suited to estimate smooth covariances by taking advantage of their symmetry. Its application considerably reduces computation time and memory requirements. The proposed modeling framework is evaluated in extensive simulation studies. The relevance of the proposed methods is highlighted in applications to data from speech production research as well as from medical studies. To allow the practical application of the methods, open-source implementations are provided in the two R add-on packages denseFLMM and sparseFLMM.
dependent functional data, functional principal component analysis, functional additive models, mixed models, penalized splines, covariance smoothing, longitudinal data
Cederbaum, Jona
2017
English
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Cederbaum, Jona (2017): Functional linear mixed models for complex correlation structures and general sampling grids. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics
[img]
Preview
PDF
Cederbaum_Jona.pdf

15MB

Abstract

Der technologische Fortschritt ermöglicht es heutigen Wissenschaftlern verschiedener Bereiche, zunehmend Daten zu erheben, die aus funktionalen Beobachtungen anstelle von einzelnen Datenpunkten bestehen. Intensive Forschung im Bereich der funktionalen Datenanalyse zielte in den letzten Jahren darauf ab, Methoden zu entwickeln, um das gesamte Potenzial dieser Art von Daten zu erschließen. Viele der vorgeschlagenen Methoden basieren auf der Annahme unabhängiger funktionaler Beobachtungen. In der Praxis kann dies eine große Einschränkung darstellen, da die funktionalen Beobachtungen häufig korreliert sind, beispielsweise aufgrund wiederholter Beobachtungen pro Subjekt oder Gruppierung in den Daten. Der Schwerpunkt dieser Dissertation liegt auf der Analyse von funktionalen Daten mit komplexen Korrelationsstrukturen. Funktionale lineare gemischte Modelle, das funktionale Pendant zu skalaren linearen gemischten Modellen, werden verwendet um korrelierte funktionale Daten zu analysieren. Hierbei werden die zufälligen Effekte der skalaren linearen gemischten Modelle durch Funktionen ersetzt, die über den Träger der beobachteten Daten variieren. Zusätzlich zu der Annahme unabhängiger funktionaler Beobachtungen setzen die meisten bestehenden Methoden voraus, dass die funktionalen Beobachtungen an einer typischerweise großen Anzahl an Beobachtungspunkten vorliegen, die über alle Kurven gleich sind. Diese starke Anforderung wird in Anwendungen oft nicht erfüllt, da funktionale Beobachtungen häufig an kurvenspezifischen, möglicherweise wenigen, irregulären Gitterpunkten vorliegen. Mit dem Ziel, diese Einschränkung zu überwinden, liegt ein besonderer methodologischer Schwerpunkt dieser Dissertation auf der Erweiterung von funktionalen linearen gemischten Modellen und ihrer Schätzung auf Daten, die auf ungleichen Gittern oder sogar spärlich beobachtet werden. Diese Dissertation entwickelt ein neues Modellierungsframework, das sowohl komplexe Korrelationsstrukturen zwischen funktionalen Beobachtungen als auch Beobachtungen auf generellen Gittern behandelt. Bisherige Ansätze erlauben entweder weniger allgemeine Korrelationsstrukturen oder lassen keine generellen Gitter und Spärlichkeit der Beobachtungen zu. Dem funktionalen Charakter der Daten wird Rechnung getragen, indem die Modellterme des additiven Prädiktors in geeigneten Basen dargestellt werden. Zur Darstellung der funktionalen zufälligen Effekte werden Basen aus funktionalen Hauptkomponenten gewählt. Diese können als natürliche funktionale Erweiterungen multivariater Hauptkomponenten angesehen werden und repräsentieren somit die Hauptrichtungen der Variation in den Daten. Durch Verwendung der bedeutendsten Richtungen wird eine, für funktionale Daten besonders entscheidende, Dimensionsreduktion erreicht. In Analogie zum multivariaten Fall entsprechen die funktionalen Hauptkomponenten der funktionalen zufälligen Effekte den Eigenfunktionen der entsprechenden Kovarianzoperatoren. Die Schätzung der Kovarianzen latenter Prozesse ist ein nicht triviales Problem und stellt daher ein zentrales Element dieser Dissertation dar. In den ersten beiden Teilen dieser Arbeit werden zwei neue Momentenschätzer für die Kovarianz latenter Prozesse vorgeschlagen. Sie unterscheiden sich in der Allgemeinheit der angenommenen Korrelationsstrukturen und der unterstützten Beobachtungsgitter. Beide Kovarianzschätzmethoden beinhalten bivariate Glättung von einer oder mehreren Kovarianzen. Im dritten Teil wird ein schneller, symmetrischer bivariater Glättungsansatz vorgeschlagen, der besonders geeignet ist um glatte Kovarianzen zu schätzen, indem er sich deren Symmetrieeigenschaften zunutze macht. Seine Anwendung reduziert sowohl Rechenzeit als auch Speicherbedarf erheblich. Das vorgeschlagene Modellierungsframework wird in umfangreichen Simulationsstudien evaluiert. Die Relevanz der vorgeschlagenen Methoden wird durch Analysen von Daten aus der Sprachproduktionsforschung und aus medizinischen Studien hervorgehoben. Um die praktische Verwendung der Methoden zu ermöglichen, werden open-source Implementationen in den beiden R Paketen denseFLMM und sparseFLMM zur Verfügung gestellt.

Abstract

Technological advances allow today's scientists in various fields to collect an increasing amount of data consisting of functional observations rather than single data points. Intense research in statistical methodology for functional data during the last years has aimed at developing methods that exploit the whole potential of this type of data. Many of the proposed approaches assume that the functional observations are independent. This may be very restrictive in practice, where correlation is frequently induced by, e.g., repeated observations per subject or grouping in the data. The main focus of this thesis is on the analysis of functional data with complex correlation structures. Functional linear mixed models that represent functional counterparts to scalar linear mixed models are applied to analyze correlated functional data. The random effects of scalar linear mixed models are replaced by functions that vary over the same domain as the observed data. In addition to assuming independent functional observations, most existing methods are restricted to functional observation that are available at a typically large number of observation points that are the same across all curves. This strong requirement is often not met in applications, where functional observations are frequently evaluated at curve-specific - possibly few - irregularly spaced points. To overcome this restriction, special methodological emphasis of this thesis is placed on the extension of functional linear mixed models and their estimation to data that are observed on unequal grids or even sparsely. This thesis develops a new estimation framework that addresses both complex correlation structures between functional observations as well as observations on general sampling grids. Previous work is either less general in the assumed correlation structure or does not allow for general grids and sparseness. The functional nature of the data is accounted for by expanding all model terms in the additive predictor in suitable bases. For the functional random effects, bases of functional principal components are chosen. These can be seen as natural functional extensions of multivariate principal components and thus represent the dominant modes of variation in the data. Using only the most important directions provides the dimension reduction critically important for functional data analysis. In analogy to the multivariate case, the functional principal components of the functional random effects correspond to the eigenfunctions of their respective covariance operators. How to estimate covariances of latent processes is non-trivial and thus constitutes an essential element in this thesis. In the first two parts of this work, two novel method of moments estimators for covariances of latent processes are proposed. They differ in the generality of the assumed correlation structures and the supported sampling grids. Both covariance estimation methods involve bivariate smoothing of one or multiple covariances. In the third part, a fast symmetric bivariate smoothing approach is proposed that is particularly suited to estimate smooth covariances by taking advantage of their symmetry. Its application considerably reduces computation time and memory requirements. The proposed modeling framework is evaluated in extensive simulation studies. The relevance of the proposed methods is highlighted in applications to data from speech production research as well as from medical studies. To allow the practical application of the methods, open-source implementations are provided in the two R add-on packages denseFLMM and sparseFLMM.