Bauer, Alexander (2022): Flexible approaches in functional data and age-period-cohort analysis with application on complex geoscience data. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics |
Preview |
PDF
Bauer_Alexander.pdf 9MB |
Abstract
Functional data analysis and age-period-cohort (APC) analysis both deal with the estimation of flexible (association) structures over domains like time and space. This dissertation focuses on the development of new approaches to robustly estimate such structures. All methods are motivated and showcased with applications in seismological research or tourism science. The outlined approaches are implemented in open-source software packages in the statistical software R and are accompanied by detailed instructions on how to properly apply them. The main methodological contribution of this dissertation focuses on the separation of amplitude and phase variation as a central component of functional data analysis. When functional data comprise a relevant amount of phase variation, they have to be registered to align the phase of the individual curves by elastically deforming their domains. While registration became an active field of research over the last decades, approaches for common data structures like generalized and not completely observed data are still lacking. The first contributing article adapts a likelihood-based registration method for such generalized and incomplete data, and joins it with an approach for generalized functional principal component analysis (GFPCA) to represent the obtained solution in a low-dimensional basis. The utility of the method is showcased on simulated seismic data with a highly volatile Gamma structure, used to assess critical geophysical parameters associated with strong ground motion in the event of an earthquake. The method’s performance is compared to other established registration approaches. An implementation is available in the R package registr which is outlined in the second article. After the separation of amplitude and phase, functional data can be analyzed in ways conceptually similar to scalar data. One common research question is to estimate the association between observed structures in curves and a set of scalar covariates. The third article gives an introduction to generalized functional additive models (GFAMs) as a flexible semiparametric approach to estimate such function-on-scalar regression models. Practical guidelines are discussed for all relevant aspects based on the analysis of the above-mentioned seismic data. Practical researchers are guided by offering fully reproducible code as well as the R package FoSIntro which contains numerous utility functions. The third part of this dissertation covers APC analysis as a technique to analyze the underlying drivers of long-term temporal processes. The critical challenge in APC analysis is the linear dependency of the three dimensions age, period, and cohort (cohort = period - age). Flexible methods for estimation and visualization are needed to properly disentangle observed temporal structures. The fourth article introduces ridgeline matrices and partial APC plots as novel visualization techniques, refining the concepts of established techniques like Lexis diagrams. Model-based separation of the temporal dimensions is performed utilizing the semiparametric estimation of a two-dimensional tensor product surface with a generalized additive model (GAM). The usefulness of the methods is showcased with data from tourism science, analyzing drivers for altering travel distances of German tourists over the last decades. The fifth article covers the R package APCtools which implements the newly introduced methods as well as additional visualization techniques.
Abstract
Funktionale Datenanalyse und Alters-Perioden-Kohorten (APC-)Analyse befassen sich mit der Schätzung flexibler (Assoziations-)Strukturen über Domains wie Zeit und Raum. Die vorliegende Dissertation behandelt die Entwicklung neuer Ansätze zur robusten Schätzung solcher Strukturen. Alle Methoden werden anhand von Anwendungen in der seismologischen Forschung oder der Tourismuswissenschaft motiviert und eingeführt. Die methodischen Ansätze sind in Open-Source-Softwarepaketen in der Statistik-Software R implementiert und werden begleitet von detaillierten Ausführungen zu ihrer korrekten Anwendung. Der zentrale methodische Beitrag dieser Dissertation fokussiert sich auf die Trennung von Amplituden- und Phasenvariation als eine der zentralen Komponenten funktionaler Datenanalyse. Enthalten funktionale Daten eine relevante Menge an Phasenvariation, so müssen sie registriert werden, um die Phasen der einzelnen Kurven durch elastische Verformung ihrer Domains anzugleichen. Obwohl sich die Registrierung über die letzten Jahrzehnte zu einem aktiven Forschungsgebiet entwickelt hat, fehlen weiterhin flexible Ansätze zur Analyse verbreiteter Datenstrukturen wie etwa generalisierter oder nicht vollständig beobachteter Daten. Der erste Artikel dieser Dissertation adaptiert eine Likelihood-basierte Registrierungsmethode für solche generalisierten und unvollständigen Daten und verbindet sie mit einem Ansatz zur generalisierten funktionalen Hauptkomponentenanalyse (GFPCA), um die erhaltene Lösung in einer niedrigdimensionalen Basis zu repräsentieren. Die Nützlichkeit der Methode wird an simulierten seismischen Daten mit einer hochvolatilen Gamma-Struktur demonstriert. Diese Daten werden zur Einschätzung zentraler geophysikalischer Parameter verwendet, welche im Falle eines Erdbebens mit starken Bodenbewegungen assoziiert sind. Die Performanz der Methode wird mit anderen etablierten Registrierungsansätzen verglichen. Eine Implementierung ist im R-Paket registr verfügbar, das im zweiten Artikel beschrieben wird. Nach der Separierung von Amplitude und Phase können funktionale Daten auf konzeptionell ähnliche Weisen analysiert werden wie skalare Daten. Eine häufige Forschungsfrage ist die Schätzung des Zusammenhangs zwischen beobachteten Strukturen in Kurven und einer Reihe von skalaren Kovariablen. Der dritte Artikel gibt eine Einführung in generalisierte funktionale additive Modelle (GFAMs), welche einen flexiblen semiparametrischen Ansatz zur Schätzung solcher Funktion-auf-Skalar-Regressionsmodelle darstellen. Anhand der Analyse der erwähnten seismischen Daten werden praktische Leitlinien für alle relevanten Aspekte der Methode diskutiert. Mit Blick auf Fachwissenschaftler wurde über den vollständig reproduzierbaren Code hinaus das R-Paket FoSIntro entwickelt, welches bei der Durchführung von Regressionsanalysen Unterstützung bietet. Der dritte Teil dieser Dissertation befasst sich mit APC-Analyse als einer Technik zur Analyse der zugrundeliegenden Treiber langfristiger zeitlicher Prozesse. Die zentrale Herausforderung von APC-Analysen bildet die lineare Abhängigkeit der drei Dimensionen Alter, Periode und Kohorte (Kohorte = Periode - Alter). Flexible Methoden zur Schätzung und Visualisierung sind erforderlich, um die beobachteten zeitlichen Strukturen adäquat zu entflechten. Der vierte Artikel führt Ridgeline-Matrizen und partial APC plots als neue Visualisierungstechniken ein. Diese verfeinern etablierte Techniken wie etwa Lexis-Diagramme. Die modellbasierte Trennung der zeitlichen Dimensionen wird durch die semiparametrische Schätzung einer zweidimensionalen Tensorprodukt-Oberfläche mit einem generalisierten additiven Modell (GAM) durchgeführt. Die Nützlichkeit der Methoden wird anhand von Daten aus der Tourismuswissenschaft demonstriert, anhand welcher die Treiber analysiert werden, welche mit sich verändernden Reisedistanzen deutscher Touristen über die letzten Jahrzehnte assoziiert sind. Der fünfte Artikel behandelt das R-Paket APCtools, welches die neuen Methoden sowie zusätzliche Visualisierungstechniken implementiert.
Item Type: | Theses (Dissertation, LMU Munich) |
---|---|
Subjects: | 300 Social sciences 300 Social sciences > 310 General statistics |
Faculties: | Faculty of Mathematics, Computer Science and Statistics |
Language: | English |
Date of oral examination: | 24. June 2022 |
1. Referee: | Küchenhoff, Helmut |
MD5 Checksum of the PDF-file: | 1e8ae2670350dc7a20160d26343cbd06 |
Signature of the printed copy: | 0001/UMC 28886 |
ID Code: | 30170 |
Deposited On: | 11. Jul 2022 09:14 |
Last Modified: | 11. Jul 2022 09:14 |