Logo Logo
Hilfe
Kontakt
Switch language to English
Statistical techniques for sparse compositional count data with applications to high-throughput single-cell RNA and amplicon sequencing
Statistical techniques for sparse compositional count data with applications to high-throughput single-cell RNA and amplicon sequencing
High-throughput sequencing (HTS) methods enable researchers to analyze the type and function of large numbers of cells either in bulk, for example by amplicon sequencing for microbiome analysis, or individually through single-cell RNA sequencing (scRNA-seq). The primary data structures for both technologies are high-dimensional count matrices: Amplicon sequencing data typically describes the abundance of microbial taxa in each sample, while scRNA-seq yields expression counts of genes for each of the sequenced cells. Additionally, determining the type of each cell in a scRNA-seq experiment with multiple samples allows aggregation into a sample by cell-type count matrix, similar to amplicon sequencing. In both cases, changes in the feature composition under demographic, phenotypical, or environmental covariates are of particular interest, but such differential abundance (DA) analysis is not straightforward from a statistical perspective. HTS abundance datasets often contain more features than samples, warranting specific care in the selection of statistically relevant effects, while low sample sizes in scRNA-seq and high sparsity in microbial abundance data pose further challenges for the development of suitable statistical methods. Finally, technological limitations induce an upper bound on the sequencing depth for each sample, which makes accounting for compositional effects a necessity. This dissertation comprises three areas of articles, each providing one or two contributions in compositional analysis or general statistical processing of HTS data. They are preceded by an introductory part detailing the statistical foundations for the methods used throughout the contributions. The first section of articles is concerned with Bayesian modeling and differential abundance testing of high-throughput sequencing data and consists of two articles. In the first contribution, scCODA, a generative model for DA testing of cell-type compositions from scRNA-seq, is introduced. scCODA uses a Dirichlet-Multinomial model to account for the compositional constraints and performs model selection through spike-and-slab priors and thresholding on the posterior inclusion probability. Additionally, the automatic or manual selection of a reference feature ensures full identifiability of the model. The second publication notes the hierarchical structure of microbial taxa and cell-types alike and extends scCODA to consider aggregated effects on the nodes of the underlying feature tree. The resulting model, called tascCODA, utilizes spike-and-slab LASSO priors and hierarchically adaptive regularization penalties to find differentially abundant features and groups of features over the entire tree. Simulation studies and applications to scRNA-seq data show that scCODA and tascCODA have better FDR control than other DA testing methods in low- to moderate sample-size settings and select biologically relevant effects. The second section contains a manuscript on cosmoDA, a method for DA testing of HTS abundance data in the presence of feature-feature correlations. By modeling compositional data through a-b power interaction models, a generalization of the multivariate logistic normal distribution, cosmoDA detects and avoids spurious effects caused by first-order associations between features. In addition, score matching optimization allows for very efficient parameter estimation of the proposed model, while penalized estimation of the interaction matrix ensures model identifiability. The contribution further examines the use of Box-Cox transformations in conjunction with the a-b power interaction model family to eliminate the need for zero imputation in compositional data. The manuscripts in the final part of the thesis define best practices for the analysis of scRNA-seq data. The first contribution provides a framework for automatic statistical processing of gene expression data from single-cell sequencing on bacteria, called BacSC. The pipeline combines ideas from data thinning and comparisons with negative control data to automate the selection of hyperparameters for dimension reduction, visualization, and clustering, and guarantees FDR control under ``double dipping” conditions in differential gene expression testing. BacSC further accounts for the extreme zero inflation and low sequencing depth of bacterial scRNA-seq data during variance stabilization and presents improvements to null data generation under these conditions. The second contribution in this section provides best practices and example workflows for researchers when performing compositional analysis of scRNA-seq data with scCODA and tascCODA., Hochdurchsatz-Sequenzierungsverfahren (HDS) ermöglichen Forschenden, Typ und Funktion von großen Mengen an Zellen zu analysieren - entweder in ihrer Gesamtheit, zum Beispiel mithilfe von Amplicon-Sequenzierung in der Mikrobiomanalyse, oder individuell durch Einzelzellsequenzierung. Die primäre Datenstruktur für beide Technologien sind hochdimensionale Matrizen mit Zähldaten: Amplicon-Sequenzierung beschreibt typischer-weise die Häufigkeit mikrobieller Taxa in jeder Stichprobe, während Einzelzellsequenzierung die Expressionslevel von Genen in jeder betrachteten Zelle liefert. Zusätzlich kann durch Bestimmung des Typs jeder Zelle in einem Einzelzellsequenzierungsexperiment eine Aggregation in eine Datenmatrix mit Stichproben und Zelltypen vorgenommen werden, welche denen der Amplicon-Sequenzierung ähnelt. In beiden Fällen sind Veränderungen der Komposition unter demographischen, phäno-typischen, oder umweltbezogenen Kovariaten von besonderem Interesse, wenngleich eine solche Analyse der diffenziellen Abundanz (DA) nicht trivial ist. HDS-Abundanzdaten enthalten oft mehr Komponenten als Stichproben, was besondere Vorsicht bei der Auswahl statistisch relevanter Effekte erfordert. Weiterhin stellen kleine Stichprobengrößen in der Einzelzellanalyse und dünnbesetzte mikrobielle Abundanzdaten weitere Herausforderungen für die Entwicklung geeigneter statistischer Methoden dar. Zuletzt rufen technische Einschränkungen eine Obergrenze in der Sequenzierungstiefe jeder Stichprobe hervor, was die Berücksichtigung kompositioneller Effekte notwendig macht. Diese Dissertation besteht aus drei Abschnitten mit Artikeln, von denen jeder einen oder zwei Beiträge zur Kompositionsanalyse oder genereller statistischer Verarbeitung von HDS-Daten enthält. Demzuvor steht ein einleitender Teil, welcher die statistischen Grundlagen für die in den Artikeln verwendeten Methoden darlegt. Der erste Satz an Artikeln beschäftigt sich mit Bayesscher Modellierung und Tests zur differentiellen Abundanz in Hochdurchsatz-Sequenzierungsdaten und umfasst zwei Artikel. Im ersten Artikel wird scCODA, ein generatives Modell zur DA-Analyse von Zelltyp-Kompositionen aus der Einzelzellanalyse, vorgestellt. scCODA verwendet ein Dirichlet-Multinomialmodell zur Berücksichtigung der kompositionellen Bedingungen und führt Modellselektion mittels spike-and-slab Verteilungen und Schwellenwertsetzung auf deren Inklusionswahrscheinlichkeiten durch. Zusätzlich garantiert die automatische oder manuelle Auswahl einer Referenzkomponente volle Identifizierbarkeit. Die zweite Publikation beschäftigt sich mit den hierarchischen Strukturen von mikrobiellen Taxa und Zelltypen und erweitert scCODA um aggregierte Effekte auf den inneren Knoten des zugrundeliegenden Baumes. Dieses Modell, tascCODA genannt, werwendet spike-and-slab LASSO-Verteilungen und hierarchisch adaptive Regularisierungsstärken, um sich verändernde Komponenten und Gruppen von Komponenten zu identifizieren. Simulationsstudien und Anwendungen auf reelle Hochdurchsatz-Sequenzierungsdaten zeigen, dass scCODA und tascCODA die Falscherkennungsrate in Szenarien mit niedriger bis moderater Dimensionalität besser als vergleichbare Methoden kontrollieren und biologisch relevante Effekte erkennen. Der zweite Abschnitt enthält ein Manuskript zu cosmoDA, eine Methode für DA-Tests auf HDS-Abundanzdaten unter der Berücksichtigung von Interaktionen zwischen den Komponenten. Durch die Modellierung von Kompositionsdaten durch a-b Power Interaction Modelle, eine Generalisierung der multivariaten Logit-Normalverteilung, kann cosmoDA falsch positive Effekte, hervorgerufen durch paarweise Interaktion zwischen Komponenten, erkennen und vermeiden. Zusätzlich ermöglicht Score Matching-Optimierung effiziente Parameterschätzung des Modells, während regularisierte Schätzung der Interaktionen Identifizierbarkeit garantiert. Der Beitrag untersucht desweiteren die Möglichkeit zur Vermeidung der Imputation von Nulleinträgen durch die Verwendung von Box-Cox-Transformationen im Zusammenhang mit der a-b Power Interaction-Modellfamilie. Die Artikel im letzten Teil der Arbeit definieren beste Verfahrensweisen für die Analyse von Einzelzell-Sequenzierungsdaten. Der erste Beitrag stellt ein Verfahren für die automatisierte statistische Verarbeitung von bakteriellen Einzelzellsequenzierungsdaten mit Namen BacSC vor. Das Verfahren kombiniert Ideen aus dem data thinning und Vergleiche mit negativen Kontrolldaten, um die Selektion von Hyperparametern zur Dimensionsreduktion, Visualisierung und Gruppierung zu automatisieren, sowie die Falscherkennungsrate unter ``double dipping"-Bedingungen in der differentiellen Genexpressionsanalyse zu kontrollieren. BacSC berücksichtigt weiterhin die extreme Nullinflation und geringe Sequenzierungstiefe bakterieller Einzelzellsequenzierungsdaten während der Varianzstabilisierung und zeigt Verbesserungen bei der Generierung von Nulldaten unter diesen Bedingungen. Der zweite Beitrag in diesem Abschnitt definiert beste Vorgehensweisen und Beispielana-lysen für Forscher bei der Kompositionsanalyse von Einzelzellsequenzierungsdaten mit scCODA und tascCODA.
Compositional data, High throughput sequencing, single-cell sequencing, differential abundance, statistics
Ostner, Johannes
2025
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Ostner, Johannes (2025): Statistical techniques for sparse compositional count data with applications to high-throughput single-cell RNA and amplicon sequencing. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of Ostner_Johannes.pdf]
Vorschau
PDF
Ostner_Johannes.pdf

80MB

Abstract

High-throughput sequencing (HTS) methods enable researchers to analyze the type and function of large numbers of cells either in bulk, for example by amplicon sequencing for microbiome analysis, or individually through single-cell RNA sequencing (scRNA-seq). The primary data structures for both technologies are high-dimensional count matrices: Amplicon sequencing data typically describes the abundance of microbial taxa in each sample, while scRNA-seq yields expression counts of genes for each of the sequenced cells. Additionally, determining the type of each cell in a scRNA-seq experiment with multiple samples allows aggregation into a sample by cell-type count matrix, similar to amplicon sequencing. In both cases, changes in the feature composition under demographic, phenotypical, or environmental covariates are of particular interest, but such differential abundance (DA) analysis is not straightforward from a statistical perspective. HTS abundance datasets often contain more features than samples, warranting specific care in the selection of statistically relevant effects, while low sample sizes in scRNA-seq and high sparsity in microbial abundance data pose further challenges for the development of suitable statistical methods. Finally, technological limitations induce an upper bound on the sequencing depth for each sample, which makes accounting for compositional effects a necessity. This dissertation comprises three areas of articles, each providing one or two contributions in compositional analysis or general statistical processing of HTS data. They are preceded by an introductory part detailing the statistical foundations for the methods used throughout the contributions. The first section of articles is concerned with Bayesian modeling and differential abundance testing of high-throughput sequencing data and consists of two articles. In the first contribution, scCODA, a generative model for DA testing of cell-type compositions from scRNA-seq, is introduced. scCODA uses a Dirichlet-Multinomial model to account for the compositional constraints and performs model selection through spike-and-slab priors and thresholding on the posterior inclusion probability. Additionally, the automatic or manual selection of a reference feature ensures full identifiability of the model. The second publication notes the hierarchical structure of microbial taxa and cell-types alike and extends scCODA to consider aggregated effects on the nodes of the underlying feature tree. The resulting model, called tascCODA, utilizes spike-and-slab LASSO priors and hierarchically adaptive regularization penalties to find differentially abundant features and groups of features over the entire tree. Simulation studies and applications to scRNA-seq data show that scCODA and tascCODA have better FDR control than other DA testing methods in low- to moderate sample-size settings and select biologically relevant effects. The second section contains a manuscript on cosmoDA, a method for DA testing of HTS abundance data in the presence of feature-feature correlations. By modeling compositional data through a-b power interaction models, a generalization of the multivariate logistic normal distribution, cosmoDA detects and avoids spurious effects caused by first-order associations between features. In addition, score matching optimization allows for very efficient parameter estimation of the proposed model, while penalized estimation of the interaction matrix ensures model identifiability. The contribution further examines the use of Box-Cox transformations in conjunction with the a-b power interaction model family to eliminate the need for zero imputation in compositional data. The manuscripts in the final part of the thesis define best practices for the analysis of scRNA-seq data. The first contribution provides a framework for automatic statistical processing of gene expression data from single-cell sequencing on bacteria, called BacSC. The pipeline combines ideas from data thinning and comparisons with negative control data to automate the selection of hyperparameters for dimension reduction, visualization, and clustering, and guarantees FDR control under ``double dipping” conditions in differential gene expression testing. BacSC further accounts for the extreme zero inflation and low sequencing depth of bacterial scRNA-seq data during variance stabilization and presents improvements to null data generation under these conditions. The second contribution in this section provides best practices and example workflows for researchers when performing compositional analysis of scRNA-seq data with scCODA and tascCODA.

Abstract

Hochdurchsatz-Sequenzierungsverfahren (HDS) ermöglichen Forschenden, Typ und Funktion von großen Mengen an Zellen zu analysieren - entweder in ihrer Gesamtheit, zum Beispiel mithilfe von Amplicon-Sequenzierung in der Mikrobiomanalyse, oder individuell durch Einzelzellsequenzierung. Die primäre Datenstruktur für beide Technologien sind hochdimensionale Matrizen mit Zähldaten: Amplicon-Sequenzierung beschreibt typischer-weise die Häufigkeit mikrobieller Taxa in jeder Stichprobe, während Einzelzellsequenzierung die Expressionslevel von Genen in jeder betrachteten Zelle liefert. Zusätzlich kann durch Bestimmung des Typs jeder Zelle in einem Einzelzellsequenzierungsexperiment eine Aggregation in eine Datenmatrix mit Stichproben und Zelltypen vorgenommen werden, welche denen der Amplicon-Sequenzierung ähnelt. In beiden Fällen sind Veränderungen der Komposition unter demographischen, phäno-typischen, oder umweltbezogenen Kovariaten von besonderem Interesse, wenngleich eine solche Analyse der diffenziellen Abundanz (DA) nicht trivial ist. HDS-Abundanzdaten enthalten oft mehr Komponenten als Stichproben, was besondere Vorsicht bei der Auswahl statistisch relevanter Effekte erfordert. Weiterhin stellen kleine Stichprobengrößen in der Einzelzellanalyse und dünnbesetzte mikrobielle Abundanzdaten weitere Herausforderungen für die Entwicklung geeigneter statistischer Methoden dar. Zuletzt rufen technische Einschränkungen eine Obergrenze in der Sequenzierungstiefe jeder Stichprobe hervor, was die Berücksichtigung kompositioneller Effekte notwendig macht. Diese Dissertation besteht aus drei Abschnitten mit Artikeln, von denen jeder einen oder zwei Beiträge zur Kompositionsanalyse oder genereller statistischer Verarbeitung von HDS-Daten enthält. Demzuvor steht ein einleitender Teil, welcher die statistischen Grundlagen für die in den Artikeln verwendeten Methoden darlegt. Der erste Satz an Artikeln beschäftigt sich mit Bayesscher Modellierung und Tests zur differentiellen Abundanz in Hochdurchsatz-Sequenzierungsdaten und umfasst zwei Artikel. Im ersten Artikel wird scCODA, ein generatives Modell zur DA-Analyse von Zelltyp-Kompositionen aus der Einzelzellanalyse, vorgestellt. scCODA verwendet ein Dirichlet-Multinomialmodell zur Berücksichtigung der kompositionellen Bedingungen und führt Modellselektion mittels spike-and-slab Verteilungen und Schwellenwertsetzung auf deren Inklusionswahrscheinlichkeiten durch. Zusätzlich garantiert die automatische oder manuelle Auswahl einer Referenzkomponente volle Identifizierbarkeit. Die zweite Publikation beschäftigt sich mit den hierarchischen Strukturen von mikrobiellen Taxa und Zelltypen und erweitert scCODA um aggregierte Effekte auf den inneren Knoten des zugrundeliegenden Baumes. Dieses Modell, tascCODA genannt, werwendet spike-and-slab LASSO-Verteilungen und hierarchisch adaptive Regularisierungsstärken, um sich verändernde Komponenten und Gruppen von Komponenten zu identifizieren. Simulationsstudien und Anwendungen auf reelle Hochdurchsatz-Sequenzierungsdaten zeigen, dass scCODA und tascCODA die Falscherkennungsrate in Szenarien mit niedriger bis moderater Dimensionalität besser als vergleichbare Methoden kontrollieren und biologisch relevante Effekte erkennen. Der zweite Abschnitt enthält ein Manuskript zu cosmoDA, eine Methode für DA-Tests auf HDS-Abundanzdaten unter der Berücksichtigung von Interaktionen zwischen den Komponenten. Durch die Modellierung von Kompositionsdaten durch a-b Power Interaction Modelle, eine Generalisierung der multivariaten Logit-Normalverteilung, kann cosmoDA falsch positive Effekte, hervorgerufen durch paarweise Interaktion zwischen Komponenten, erkennen und vermeiden. Zusätzlich ermöglicht Score Matching-Optimierung effiziente Parameterschätzung des Modells, während regularisierte Schätzung der Interaktionen Identifizierbarkeit garantiert. Der Beitrag untersucht desweiteren die Möglichkeit zur Vermeidung der Imputation von Nulleinträgen durch die Verwendung von Box-Cox-Transformationen im Zusammenhang mit der a-b Power Interaction-Modellfamilie. Die Artikel im letzten Teil der Arbeit definieren beste Verfahrensweisen für die Analyse von Einzelzell-Sequenzierungsdaten. Der erste Beitrag stellt ein Verfahren für die automatisierte statistische Verarbeitung von bakteriellen Einzelzellsequenzierungsdaten mit Namen BacSC vor. Das Verfahren kombiniert Ideen aus dem data thinning und Vergleiche mit negativen Kontrolldaten, um die Selektion von Hyperparametern zur Dimensionsreduktion, Visualisierung und Gruppierung zu automatisieren, sowie die Falscherkennungsrate unter ``double dipping"-Bedingungen in der differentiellen Genexpressionsanalyse zu kontrollieren. BacSC berücksichtigt weiterhin die extreme Nullinflation und geringe Sequenzierungstiefe bakterieller Einzelzellsequenzierungsdaten während der Varianzstabilisierung und zeigt Verbesserungen bei der Generierung von Nulldaten unter diesen Bedingungen. Der zweite Beitrag in diesem Abschnitt definiert beste Vorgehensweisen und Beispielana-lysen für Forscher bei der Kompositionsanalyse von Einzelzellsequenzierungsdaten mit scCODA und tascCODA.