Logo Logo
Help
Contact
Switch language to German
New approaches in statistical modeling
New approaches in statistical modeling
Diese kumulative Dissertation befasst sich mit der statistischen Modellierung von räumlichen Netzwerkdaten, sowie von Daten zur Pandemie des SARS-CoV-2-Virus. Statistische Modellierung kann im übertragenden Sinne als ein großer "Werkzeugkasten'' verstanden werden, mit dem man Phänomene der realen Welt durch eine geeignete mathematische Formalisierung approximiert. Die in dieser Arbeit verwendeten Modelle beruhen in erster Linie auf Regression, wobei die Schwerpunkte auf der Glättung mit penalisierten Splines unter Einbeziehung von zufälligen Effekten liegen. Im Allgemeinen bestehen die Vorteile von Regressions- und statistischen Modellen darin, dass sie interpretierbare Modellergebnisse liefern und Vorhersagen über unbeobachtete Zustände erlauben. Gleichzeitig ist eine Beurteilung der zugrunde liegenden Unsicherheit der Schätzungen möglich. Diese drei Schlüsselaspekte des statistischen Modellierens spielen eine entscheidende Rolle in den fünf Beiträgen dieser kumulativen Dissertation. Die ersten drei Artikel befassen sich mit statistischen Modellen und ihrer Anwendung auf Daten, die auf Netzwerken beobachtet werden. Netzwerke sind Strukturen, die aus durch Kanten verbundene Knoten bestehen. Während Netzwerke in natürlicher Weise abstrakte Beziehungen wie soziale Netzwerke oder ein Netzwerk von Geschäftspartnern darstellen können, liegt der Schwerpunkt in dieser Arbeit auf Netzwerken mit einer räumlichen Interpretation. Im ersten Artikel wird ein neues Modell entwickelt, welches erlaubt, statistische Rückschlüsse auf unbeobachtete Fahrten in Bike-Sharing-Netzwerken zu ziehen. Dabei stellen die Fahrradstationen die Eckpunkte des Netzwerks dar, und die Wege zwischen den Fahrradstationen entsprechen den Kanten. Der darauf folgende Artikel behandelt räumliche Netzwerke und die Schätzung der Intensität von stochastischen Prozessen, deren Realisierungen in räumlichen Netzwerken beobachtet werden. Die Methodik erlaubt auch die Einbeziehung von Kovariablen bei der Schätzung der Intensität. Diese Art der Modellierung ist neu und mit den aktuellen, auf Kerndichteschätzung basierenden Methoden, nicht möglich. Um die Methode frei zugänglich zu machen, wurde ein \textbf{R}-Paket implementiert. Der letzte Beitrag im Bereich der Netzwerke befasst sich mit der Vorhersage der Belegung von Parkplätzen, die entlang eines Straßennetzes verteilt sind. In diesem Zusammenhang wird die Netzwerkstruktur genutzt, um räumliche Abhängigkeiten zu modellieren. Darüber hinaus basieren die Vorhersagen auf einem Semi-Markov-Modell, um die nicht-exponentielle Dauer der einzelnen Zustände zu berücksichtigen. Die Übergangsintensitäten werden mit Hilfe von Überlebenszeitmodellen geschätzt. Der zweite Teil dieser Dissertation befasst sich mit der Pandemie des SARS-CoV-2-Virus, das die Krankheit COVID-19 verursacht. Das deutsche Robert-Koch-Institut (RKI) stellt täglich Daten zu COVID-19-Infektionen und Todesfällen im Zusammenhang mit COVID-19 zur Verfügung, mit zusätzlichen Angaben zu Region, Geschlecht und Alter der Infizierten. Aus verschiedenen Gründen geben die Rohdaten keinen ausreichenden Aufschluss über den Schweregrad der Pandemie, weswegen statistische Modelle auf die Daten angewandt werden. Ein Beitrag befasst sich mit der Vorhersage tödlicher Infektionen auf regionaler Ebene unter Berücksichtigung der lokalen Bevölkerungsstruktur. Damit ist das Modell in der Lage, auch eine regionalspezifische Beurteilung der Schwere der Pandemie vorzunehmen. In einem zweiten Beitrag werden die tödlich endenden Infektionen mit der Anzahl der registrierten Infektionen zueinander in Beziehung gesetzt, um die Veränderung der Fallentdeckungsrate im Laufe der Zeit zu quantifizieren. Darüber hinaus ermöglicht die Methode, den Verlauf der tatsächlichen Zahl der Infektionen zu schätzen, während die gemeldeten Infektionszahlen durch verschiedene Teststrategien beeinflusst sind., This cumulative dissertation is concerned with statistical modeling of data observed on geometric networks and data related to the pandemic of the SARS-CoV-2 virus. Statistical modeling in its broadest sense encompasses a large "toolbox'' to approximate real-world phenomena in a mathematically formalized manner. Models used in this work are primarily regression-based, with an emphasis on penalized spline smoothing and the inclusion of random effects to control for latent heterogeneities. In general, the benefits of regression and statistical models include creating interpretable model results and making predictions about unobserved states while adequately communicating the underlying uncertainty. These three key aspects of statistical modeling play a crucial role in the five contributions of this cumulative dissertation. The first three articles cover statistical models and their application to data observed on networks, i.e. structures consisting of vertices connected by a set of edges. While networks serve as a natural device to represent abstract relationships such as social networks or a network of commercial partners, the focus here is on spatial networks. The first article develops a new model to draw statistical inference about unobserved trips in bike-sharing networks. Here, bike stations represent the network's vertices, and the paths between the bike stations correspond to the edges. The consecutive article treats spatial networks, focusing on estimating stochastic processes' intensity functions with realizations observed on spatial networks. The methodology also allows fitting the intensity with covariates, which is novel and not feasible with the current state-of-the-art methods based on kernel smoothing. To make the methodology freely available, an \textbf{R} package has been implemented. The last contribution in the field of networks covers the prediction of on-street parking occupancy, where parking lots are distributed along a street network. In this context, the network structure is utilized to model spatial dependencies. Moreover, predictions are based on a semi-Markov model to account for non-exponential duration times in each state and the transition intensities are estimated employing time to event models. The second part of this dissertation deals with the pandemic of the SARS-CoV-2 virus, which causes the disease COVID-19. The German Robert Koch Institute (RKI) daily provides data concerning COVID-19 infections and deaths related to COVID-19 with information on the infected's region, gender, and age. For several reasons, the raw data do not indicate the seriousness of the pandemic sufficiently well, which is why statistical models are used to get a clearer picture of the pandemic. One contribution is concerned with nowcasting fatal infections on a regional level while accounting for the local population structure. Thus, the model is capable of evaluating the region-specific seriousness of the pandemic. A second paper relates infections ending fatally to registered infections aiming at quantifying the change of the case detection ratio over time. Furthermore, the method allows assessing the relative course of the actual number of infections while testing strategies influence the reported numbers.
Not available
Schneble, Marc
2021
English
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Schneble, Marc (2021): New approaches in statistical modeling. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics
[img]
Preview
PDF
Schneble_Marc.pdf

12MB

Abstract

Diese kumulative Dissertation befasst sich mit der statistischen Modellierung von räumlichen Netzwerkdaten, sowie von Daten zur Pandemie des SARS-CoV-2-Virus. Statistische Modellierung kann im übertragenden Sinne als ein großer "Werkzeugkasten'' verstanden werden, mit dem man Phänomene der realen Welt durch eine geeignete mathematische Formalisierung approximiert. Die in dieser Arbeit verwendeten Modelle beruhen in erster Linie auf Regression, wobei die Schwerpunkte auf der Glättung mit penalisierten Splines unter Einbeziehung von zufälligen Effekten liegen. Im Allgemeinen bestehen die Vorteile von Regressions- und statistischen Modellen darin, dass sie interpretierbare Modellergebnisse liefern und Vorhersagen über unbeobachtete Zustände erlauben. Gleichzeitig ist eine Beurteilung der zugrunde liegenden Unsicherheit der Schätzungen möglich. Diese drei Schlüsselaspekte des statistischen Modellierens spielen eine entscheidende Rolle in den fünf Beiträgen dieser kumulativen Dissertation. Die ersten drei Artikel befassen sich mit statistischen Modellen und ihrer Anwendung auf Daten, die auf Netzwerken beobachtet werden. Netzwerke sind Strukturen, die aus durch Kanten verbundene Knoten bestehen. Während Netzwerke in natürlicher Weise abstrakte Beziehungen wie soziale Netzwerke oder ein Netzwerk von Geschäftspartnern darstellen können, liegt der Schwerpunkt in dieser Arbeit auf Netzwerken mit einer räumlichen Interpretation. Im ersten Artikel wird ein neues Modell entwickelt, welches erlaubt, statistische Rückschlüsse auf unbeobachtete Fahrten in Bike-Sharing-Netzwerken zu ziehen. Dabei stellen die Fahrradstationen die Eckpunkte des Netzwerks dar, und die Wege zwischen den Fahrradstationen entsprechen den Kanten. Der darauf folgende Artikel behandelt räumliche Netzwerke und die Schätzung der Intensität von stochastischen Prozessen, deren Realisierungen in räumlichen Netzwerken beobachtet werden. Die Methodik erlaubt auch die Einbeziehung von Kovariablen bei der Schätzung der Intensität. Diese Art der Modellierung ist neu und mit den aktuellen, auf Kerndichteschätzung basierenden Methoden, nicht möglich. Um die Methode frei zugänglich zu machen, wurde ein \textbf{R}-Paket implementiert. Der letzte Beitrag im Bereich der Netzwerke befasst sich mit der Vorhersage der Belegung von Parkplätzen, die entlang eines Straßennetzes verteilt sind. In diesem Zusammenhang wird die Netzwerkstruktur genutzt, um räumliche Abhängigkeiten zu modellieren. Darüber hinaus basieren die Vorhersagen auf einem Semi-Markov-Modell, um die nicht-exponentielle Dauer der einzelnen Zustände zu berücksichtigen. Die Übergangsintensitäten werden mit Hilfe von Überlebenszeitmodellen geschätzt. Der zweite Teil dieser Dissertation befasst sich mit der Pandemie des SARS-CoV-2-Virus, das die Krankheit COVID-19 verursacht. Das deutsche Robert-Koch-Institut (RKI) stellt täglich Daten zu COVID-19-Infektionen und Todesfällen im Zusammenhang mit COVID-19 zur Verfügung, mit zusätzlichen Angaben zu Region, Geschlecht und Alter der Infizierten. Aus verschiedenen Gründen geben die Rohdaten keinen ausreichenden Aufschluss über den Schweregrad der Pandemie, weswegen statistische Modelle auf die Daten angewandt werden. Ein Beitrag befasst sich mit der Vorhersage tödlicher Infektionen auf regionaler Ebene unter Berücksichtigung der lokalen Bevölkerungsstruktur. Damit ist das Modell in der Lage, auch eine regionalspezifische Beurteilung der Schwere der Pandemie vorzunehmen. In einem zweiten Beitrag werden die tödlich endenden Infektionen mit der Anzahl der registrierten Infektionen zueinander in Beziehung gesetzt, um die Veränderung der Fallentdeckungsrate im Laufe der Zeit zu quantifizieren. Darüber hinaus ermöglicht die Methode, den Verlauf der tatsächlichen Zahl der Infektionen zu schätzen, während die gemeldeten Infektionszahlen durch verschiedene Teststrategien beeinflusst sind.

Abstract

This cumulative dissertation is concerned with statistical modeling of data observed on geometric networks and data related to the pandemic of the SARS-CoV-2 virus. Statistical modeling in its broadest sense encompasses a large "toolbox'' to approximate real-world phenomena in a mathematically formalized manner. Models used in this work are primarily regression-based, with an emphasis on penalized spline smoothing and the inclusion of random effects to control for latent heterogeneities. In general, the benefits of regression and statistical models include creating interpretable model results and making predictions about unobserved states while adequately communicating the underlying uncertainty. These three key aspects of statistical modeling play a crucial role in the five contributions of this cumulative dissertation. The first three articles cover statistical models and their application to data observed on networks, i.e. structures consisting of vertices connected by a set of edges. While networks serve as a natural device to represent abstract relationships such as social networks or a network of commercial partners, the focus here is on spatial networks. The first article develops a new model to draw statistical inference about unobserved trips in bike-sharing networks. Here, bike stations represent the network's vertices, and the paths between the bike stations correspond to the edges. The consecutive article treats spatial networks, focusing on estimating stochastic processes' intensity functions with realizations observed on spatial networks. The methodology also allows fitting the intensity with covariates, which is novel and not feasible with the current state-of-the-art methods based on kernel smoothing. To make the methodology freely available, an \textbf{R} package has been implemented. The last contribution in the field of networks covers the prediction of on-street parking occupancy, where parking lots are distributed along a street network. In this context, the network structure is utilized to model spatial dependencies. Moreover, predictions are based on a semi-Markov model to account for non-exponential duration times in each state and the transition intensities are estimated employing time to event models. The second part of this dissertation deals with the pandemic of the SARS-CoV-2 virus, which causes the disease COVID-19. The German Robert Koch Institute (RKI) daily provides data concerning COVID-19 infections and deaths related to COVID-19 with information on the infected's region, gender, and age. For several reasons, the raw data do not indicate the seriousness of the pandemic sufficiently well, which is why statistical models are used to get a clearer picture of the pandemic. One contribution is concerned with nowcasting fatal infections on a regional level while accounting for the local population structure. Thus, the model is capable of evaluating the region-specific seriousness of the pandemic. A second paper relates infections ending fatally to registered infections aiming at quantifying the change of the case detection ratio over time. Furthermore, the method allows assessing the relative course of the actual number of infections while testing strategies influence the reported numbers.