Stadler, Mara Stefanie (2024): Statistical analyses of combinatorial effects in high-throughput biological data. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics |
Preview |
PDF
Stadler_Mara.pdf 18MB |
Abstract
Das Aufkommen von großen Mengen an biologischen Zähldaten durch Hochdurchsatz-Technologien hat die Entwicklung geeigneter statistischer Methoden zu einer wichtigen Herausforderung moderner interdisziplinärer Forschung gemacht. Diese Daten weisen oft eine Vielzahl von Kovariablen auf, sind jedoch durch geringe Beobachtungsgrößen und experimentelles Rauschen limitiert. Eine zentrale Forschungsfrage in datengetriebenen Untersuchungen ist, wie biologische Kovariablen eine relevante Zielvariable beeinflussen. Meist sind nur einige der Kovariablen von Bedeutung. Diese können jedoch auf komplexe Art und Weise miteinander interagieren. Eine Hauptaufgabe besteht daher darin, die relevanten Effekte aus einer Vielzahl an möglichen Kombinationen zu identifizieren. In dieser Arbeit habe ich Methoden entwickelt, die robuste Schätzungen von Interaktionseffekten durch quadratische Regressionsmodelle ermöglichen. Diese Methoden sind sowohl für Beobachtungs- als auch für experimentelle Daten geeignet, unabhängig davon, ob die experimentellen Designs vollständig sind. Die entwickelten Modelle berücksichtigen verschiedene Arten von biologischen Zähldaten: (i) quantitative Zähldaten, (ii) binäre Daten und (iii) relative Zähldaten, auch bekannt als kompositionelle Daten. Um in Szenarien mit mehr Kovariablen als Beobachtungen sowie in niedrigdimensionalen Szenarien interpretierbare Modelle zu entwickeln, habe ich in meinen Ansätzen Penalisierung verwendet. Durch die Integration von Konzepten der hierarchisch Interaktionsmodellierung und der stabilitätsbasierten Modellselektion wird die Interpretierbarkeit gewährleistet. Zur Reduktion ungewollter, auf technisches und biologisches Rauschen zurückzuführender Effekte sind Ansätze entwickelt worden, die weniger anfällig für Ausreißer sind. Dies ist von besonderer Bedeutung, wenn nur wenige und inkonsistente Replikate vorliegen. In meinem ersten Projekt habe ich Daten der Affinitätsreinigung von Nukleosomen mit quantitativer Proteomik und hierarchischer Interaktionsmodellierung kombiniert. Ziel war es, die kombinatorischen Effekte bestimmter Chromatinmodifikationen auf die Proteinrekrutierung in einem unvollständigen experimentellen Design zu schätzen. Der hierfür entwickelte Workflow, asteRIa, ermöglicht eine stabile Schätzung robuster Interaktionen zwischen Chromatinmodifikationen und hat mehrere Proteine als epigenetische Leser-Kandidaten identifiziert. In meinem zweiten Projekt habe ich ein generisches quadratisches Interaktionsmodell entwickelt, um Umwelt- oder Wirtsbedingungen aus Daten über die mikrobielle Abundanz vorherzusagen. Dieses Modell unterstützt verschiedene Datenmodalitäten und hat einen breiten Anwendbarkeitsbereich. Diesen habe ich auf unterschiedlichen Daten demonstriert und robuste Interaktionseffekte zwischen mikrobiellen Taxa aufgedeckt. In meinem dritten Projekt habe ich Wechselwirkungen von Medikamenten in Hochdurchsatz-Screening-Verfahren für einzelne Zellen analysiert. Dabei habe ich hierarchische Interaktionsmodellierung mit einer Optimierungstechnik kombiniert, die robust gegenüber Ausreißern ist, und somit einen generischen und reproduzierbaren Workflow erstellt. Insgesamt habe ich statistische Methoden zur Schätzung robuster Interaktionseffekte in biologischen Daten entwickelt. Die Modelle ermöglichen präzise Analysen verschiedener Datentypen und identifizieren Interaktionseffekte, die Hypothesen für weiterführende funktionelle Untersuchungen darstellen.
Abstract
The advent of large-scale biological count data from high-throughput technologies has made the development of suitable statistical techniques a cornerstone of modern inter-disciplinary research. These data often contain many features but limited sample size, and are accompanied by experimental noise. A common research question in data-driven observational studies is to determine how such biological features impact a readout of interest. Typically, only a subset of features is relevant, and they may interact in a con- certed fashion. Thus, a major concern is to identify these relevant effects from a large number of possible combinations of features. In this thesis, I developed and evaluated ways to estimate stable main and interaction effects via quadratic regression models in both observational and experimental data with complete or incomplete designs. The models developed are applicable to different data modalities in which biological count data typically appear: (i) quantitative count data, (ii) presence-absence data, and (iii) relative count data, also known as compositional data. To derive parsimonious models in underdetermined regimes, as well as in low- and moderate-dimensional settings, I implemented the models under penalization. To facilitate interpretability, I included the concept of hierarchy in interaction modeling and stability-based model selection. In order to account for technical and biological noise in the data, I introduced ways to be less sensitive towards outliers, especially when few and inconsistent replicates are available. In my first project, I integrated nucleosome affinity purification data with high-throughput quantitative proteomics and hierarchical interaction modeling to estimate combinatorial effects of the presence or absence of certain chromatin modifications on protein recruit- ment within an incomplete experimental design study. This is facilitated by the computa- tional workflow asteRIa which combines hierarchical interaction modeling, stability-based model selection, and replicate consistency checks for a stable estimation of robust inter- actions among chromatin modifications. asteRIa identifies several epigenetic “reader” candidate proteins responding to specific interactions between chromatin modifications. In my second project, I developed a generic quadratic interaction model for the prediction of environmental or host-related conditions from observational and experimental micro- bial abundance data. The interaction model covers common data modalities of microbial data, ranging from quantitative microbiome and presence-absence information to com- positional microbiome data. I demonstrated the broad applicability of our framework across various ecosystems and showcased how quadratic models improve predictive accu- racy while uncovering stable interaction effects between microbial taxa when integrated with hierarchical interaction modeling and stability-based model selection. In my third project, I analyzed drug interaction effects in high-content screening (HCS) cell studies. Here, I combined hierarchical interaction modeling with an optimization that is less sensitive to outliers within a generally applicable and reproducible computational workflow to analyze combinatorial effects in HCS data. In summary, I have developed statistical approaches for the stable estimation of interaction effects, with a particular emphasis on high-throughput biological data. The workflows and statistical models I developed enable the precise analysis of various data types to reveal highly stable interaction effects, facilitating further functional analyses.
Item Type: | Theses (Dissertation, LMU Munich) |
---|---|
Subjects: | 300 Social sciences 300 Social sciences > 310 General statistics |
Faculties: | Faculty of Mathematics, Computer Science and Statistics |
Language: | English |
Date of oral examination: | 30. July 2024 |
1. Referee: | Müller, Christian |
MD5 Checksum of the PDF-file: | 91f9f09be8e115f30431a9747956265a |
Signature of the printed copy: | 0001/UMC 30642 |
ID Code: | 34054 |
Deposited On: | 30. Aug 2024 08:09 |
Last Modified: | 30. Aug 2024 08:09 |