Logo Logo
Hilfe
Kontakt
Switch language to English
Analyse und Visualisierung von Effekten in genomweiten Expressionsdaten
Analyse und Visualisierung von Effekten in genomweiten Expressionsdaten
Einleitung: Modell-basierte Vorhersagen für molekulare Netzwerke und zelluläre Interaktionen können durch zwei verschiedene Strategien der Systembiologie getroffen werden, die top-down und bottom-up Strategien. Die bottom-up Strategie beginnt bei a priori Wissen über einzelne Grundelemente und fügt diese zu größeren Einheiten wie Signalwegen oder ganzen Systemen zusammen. Top-down Strategien setzen bei Datensätzen eines Systems an und versuchen Netzwerke, Interaktionen oder Komponenten zu identifizieren, die für das Systemverhalten (z.B. Phänotyp) verantwortlich sind. Im Folgenden werden beide Strategien auf unterschiedliche Transkriptionsdaten angewendet und die Ergebnisse visualisiert. Beide Strategien können auf linearen Regressionsmodellen basieren. In dieser Arbeit werden lineare Regressionsmodelle höherer Ordnung mittels eines neuen visuellen Hilfsmittels, des Eruptionsdiagramms, verglichen. Methodik: Eruptionsdiagramme werden durch die Überlagerung zweier Vulkandiagramme erstellt. Beide Vulkandiagramme werden von derselben Datengrundlage generiert, stammen jedoch von zwei verschiedenen Modellen. Jedes Gen wird von einem Pfeil repräsentiert, welcher bei dem Punkt des Vulkandiagramms von Modell 1 startet und bei dem Punkt des Vulkandiagramms aus Modell 2 endet. Im Rahmen der Modellselektion können Eruptionsdiagramme als visuelles Hilfsmittel verwendet werden, um (ir)relevante Kovariaten, Störfaktoren und Effektmodifikation aufzudecken. Ergebnisse: Es werden zwei verschiedene Transkriptionsdatensätze analysiert: ein Maus-Infektionsdatensatz und ein humaner Asthmadatensatz. Für die Analyse des Infektionsdatensatzes werden verschiedene lineare Regressionsmodelle miteinander verglichen. Durch eine rückwärts-gewandte Modellselektionsstrategie wird gezeigt, dass durch die Infektionskovariaten erster Ordnung zusätzliche erklärende Kraft gewonnen wird. Durch das Eruptionsdiagramm werden Effekte zweiter Ordnung aufgedeckt. Ein Modellvergleich identifiziert die Kovariaten dritter Ordnung als Störfaktoren. Das Modell zweiter Ordnung, welches am besten zu den Daten passt, wird für die weiterführende Analyse verwendet. Die Ergebnisse der Interaktionskovariate werden in aggravating und alleviating Effekte unterteilt. Ein Interaktionseffekt ist alleviating (aggravating, neutral), falls der Effekt der kombinierten Kovariaten schwächer (stärker, identisch) als die Summe der individuellen Effekte dieser Kovariaten ist. Bei der bottom-up Analyse des Asthmadatensatzes werden die Daten nicht auf Einzelgenebene sondern auf Gengruppenebene analysiert. Zunächst wird das passende Regressionsmodell mit Hilfe des Eruptionsdiagramms aufgestellt. Der Einfluss der einzelnen Gene auf das globale Testergebnis der Gengruppen wird in diagnostischen Balkendiagrammen genauer untersucht. Eine Signalweganalyse der Gengruppen zeigt neue Biomarker und Signalwege für die Charakterisierung von allergischem und nicht-allergischem Asthma auf. Diskussion: Die Ergebnisse der Transkriptionsanalyse werden durch Anreicherungsanalysen auf ihre funktionelle Relevanz hin untersucht. Die Ergebnisse zeigten unterschiedliche funktionelle Eigenschaften der aggravating und alleviating Gene auf. Die Anreicherungsanalyse des Asthmadatensatzes der Gene, die von Störfaktoren beeinflusst werden und durch Effektmodifikation gekennzeichnet sind, weisen jedoch keine funktionellen Unterschiede auf., Introduction: Model-based prediction of molecular networks and cellular interactions can be identified by two different strategies of systems biology, top-down and bottom-up strategies. The bottom-up strategy starts at a priori knowledge about single elements and merges into more complex units like signalling pathways or whole systems. Top-down strategies explore datasets of a system and try to identify networks, interactions or components responsible for the system behaviour (i.e. phenotype). In this thesis both strategies are applied to different transcription datasets and the corresponding results are visualized. The strategies can be based on linear regression models. In this work higher order regression models are compared using a new visual tool, the eruption plot. Methods: Eruption plots are generated by overlapping two volcano plots. Both volcano plots are based on the same data, but originate from two different models. Each gene is symbolized by an arrow, which connects the point from the volcano plot of the first model to the point from the volcano plot of the second model. The eruption plot is a visual supporting tool in model selection revealing (ir)relevant covariates, confounding factors and effect modification. Results: Two different transcription datasets are analysed in this work, a mouse-infection dataset and a human asthma dataset. For the analysis of the infection dataset two different linear regression models are being compared. As part of a backward driven model selection strategy the infection covariates provide additional explanatory power. The eruption plot highlights second order effects. A model comparison reveals third order covariates as confounding factors. The second order model that matches the data best is applied in the subsequent analysis. The results of the interaction covariates are divided into aggravating and alleviating effects. An interaction effect is alleviating (aggravating, neutral) if the effect of both covariates is lower (higher, identical) than the sum of both individual effects of these covariates. Within the bottom-up analysis of the asthma dataset the genes are not analysed on the single gene level but on the level of gene groups. By application of an eruption plot the adequate regression model is selected. Diagnostic bar plots help to further investigate the influence of the single gene on the global test result of the gene group. A pathway analysis of the gene groups shows new biomarkers and signalling pathways to characterize allergic and non-allergic asthma. Discussion: The functional relevance of both types of analysis is explored in detail through enrichment analysis. The results of the aggravating and alleviating genes show distinct functional properties. Genes of the asthma dataset are divided into genes influenced by confounding factors and effect modification. The enrichment analysis of these two groups, however, reveals no functional differences.
Lineare Regressionsmodelle, Expressionsdaten, Eruptionsdiagramm
Prazeres da Costa, Olivia
2014
Deutsch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Prazeres da Costa, Olivia (2014): Analyse und Visualisierung von Effekten in genomweiten Expressionsdaten. Dissertation, LMU München: Medizinische Fakultät
[thumbnail of Prazeres_da_Costa_Olivia.pdf]
Vorschau
PDF
Prazeres_da_Costa_Olivia.pdf

15MB

Abstract

Einleitung: Modell-basierte Vorhersagen für molekulare Netzwerke und zelluläre Interaktionen können durch zwei verschiedene Strategien der Systembiologie getroffen werden, die top-down und bottom-up Strategien. Die bottom-up Strategie beginnt bei a priori Wissen über einzelne Grundelemente und fügt diese zu größeren Einheiten wie Signalwegen oder ganzen Systemen zusammen. Top-down Strategien setzen bei Datensätzen eines Systems an und versuchen Netzwerke, Interaktionen oder Komponenten zu identifizieren, die für das Systemverhalten (z.B. Phänotyp) verantwortlich sind. Im Folgenden werden beide Strategien auf unterschiedliche Transkriptionsdaten angewendet und die Ergebnisse visualisiert. Beide Strategien können auf linearen Regressionsmodellen basieren. In dieser Arbeit werden lineare Regressionsmodelle höherer Ordnung mittels eines neuen visuellen Hilfsmittels, des Eruptionsdiagramms, verglichen. Methodik: Eruptionsdiagramme werden durch die Überlagerung zweier Vulkandiagramme erstellt. Beide Vulkandiagramme werden von derselben Datengrundlage generiert, stammen jedoch von zwei verschiedenen Modellen. Jedes Gen wird von einem Pfeil repräsentiert, welcher bei dem Punkt des Vulkandiagramms von Modell 1 startet und bei dem Punkt des Vulkandiagramms aus Modell 2 endet. Im Rahmen der Modellselektion können Eruptionsdiagramme als visuelles Hilfsmittel verwendet werden, um (ir)relevante Kovariaten, Störfaktoren und Effektmodifikation aufzudecken. Ergebnisse: Es werden zwei verschiedene Transkriptionsdatensätze analysiert: ein Maus-Infektionsdatensatz und ein humaner Asthmadatensatz. Für die Analyse des Infektionsdatensatzes werden verschiedene lineare Regressionsmodelle miteinander verglichen. Durch eine rückwärts-gewandte Modellselektionsstrategie wird gezeigt, dass durch die Infektionskovariaten erster Ordnung zusätzliche erklärende Kraft gewonnen wird. Durch das Eruptionsdiagramm werden Effekte zweiter Ordnung aufgedeckt. Ein Modellvergleich identifiziert die Kovariaten dritter Ordnung als Störfaktoren. Das Modell zweiter Ordnung, welches am besten zu den Daten passt, wird für die weiterführende Analyse verwendet. Die Ergebnisse der Interaktionskovariate werden in aggravating und alleviating Effekte unterteilt. Ein Interaktionseffekt ist alleviating (aggravating, neutral), falls der Effekt der kombinierten Kovariaten schwächer (stärker, identisch) als die Summe der individuellen Effekte dieser Kovariaten ist. Bei der bottom-up Analyse des Asthmadatensatzes werden die Daten nicht auf Einzelgenebene sondern auf Gengruppenebene analysiert. Zunächst wird das passende Regressionsmodell mit Hilfe des Eruptionsdiagramms aufgestellt. Der Einfluss der einzelnen Gene auf das globale Testergebnis der Gengruppen wird in diagnostischen Balkendiagrammen genauer untersucht. Eine Signalweganalyse der Gengruppen zeigt neue Biomarker und Signalwege für die Charakterisierung von allergischem und nicht-allergischem Asthma auf. Diskussion: Die Ergebnisse der Transkriptionsanalyse werden durch Anreicherungsanalysen auf ihre funktionelle Relevanz hin untersucht. Die Ergebnisse zeigten unterschiedliche funktionelle Eigenschaften der aggravating und alleviating Gene auf. Die Anreicherungsanalyse des Asthmadatensatzes der Gene, die von Störfaktoren beeinflusst werden und durch Effektmodifikation gekennzeichnet sind, weisen jedoch keine funktionellen Unterschiede auf.

Abstract

Introduction: Model-based prediction of molecular networks and cellular interactions can be identified by two different strategies of systems biology, top-down and bottom-up strategies. The bottom-up strategy starts at a priori knowledge about single elements and merges into more complex units like signalling pathways or whole systems. Top-down strategies explore datasets of a system and try to identify networks, interactions or components responsible for the system behaviour (i.e. phenotype). In this thesis both strategies are applied to different transcription datasets and the corresponding results are visualized. The strategies can be based on linear regression models. In this work higher order regression models are compared using a new visual tool, the eruption plot. Methods: Eruption plots are generated by overlapping two volcano plots. Both volcano plots are based on the same data, but originate from two different models. Each gene is symbolized by an arrow, which connects the point from the volcano plot of the first model to the point from the volcano plot of the second model. The eruption plot is a visual supporting tool in model selection revealing (ir)relevant covariates, confounding factors and effect modification. Results: Two different transcription datasets are analysed in this work, a mouse-infection dataset and a human asthma dataset. For the analysis of the infection dataset two different linear regression models are being compared. As part of a backward driven model selection strategy the infection covariates provide additional explanatory power. The eruption plot highlights second order effects. A model comparison reveals third order covariates as confounding factors. The second order model that matches the data best is applied in the subsequent analysis. The results of the interaction covariates are divided into aggravating and alleviating effects. An interaction effect is alleviating (aggravating, neutral) if the effect of both covariates is lower (higher, identical) than the sum of both individual effects of these covariates. Within the bottom-up analysis of the asthma dataset the genes are not analysed on the single gene level but on the level of gene groups. By application of an eruption plot the adequate regression model is selected. Diagnostic bar plots help to further investigate the influence of the single gene on the global test result of the gene group. A pathway analysis of the gene groups shows new biomarkers and signalling pathways to characterize allergic and non-allergic asthma. Discussion: The functional relevance of both types of analysis is explored in detail through enrichment analysis. The results of the aggravating and alleviating genes show distinct functional properties. Genes of the asthma dataset are divided into genes influenced by confounding factors and effect modification. The enrichment analysis of these two groups, however, reveals no functional differences.