Logo
EnglishCookie löschen - von nun an wird die Spracheinstellung Ihres Browsers verwendet.
Erhard, Florian (2014): Algorithmic methods for systems biology of Herpes-viral microRNAs. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[img]
Vorschau
PDF
Erhard_Florian.pdf

11MB

Abstract

Recent technological advances have made it possible to measure various parameters of biological processes in a genome-wide manner. While traditional molecular biology focusses on individual processes using targeted experiments (reductionistic approach), the field of systems biology utilizes high-throughput experiments to determine the state of a complete system such as a cell at once (holistic approach). Systems biology is not only carried out in wet-lab, but for the most part also requires tailored computational methods. High-throughput experiments are able to produce massive amounts of data, that are often too complex for a human to comprehend directly, that are affected by substantial noise, i.e. random measurement variation, and that are often subject to considerable bias, i.e. systematic deviations of the measurement from the truth. Thus, computer science and statistical methods are necessary for a proper analysis of raw data from such large-scale experiments. The goal of systems biology is to understand a whole system such as a cell in a quantitative manner. Thus, the computational part does not end with analyzing raw data but also involves visualization, statistical analyses, integration and interpretation. One example for these four computational tasks is as follows: Processes in biological systems are often modeled as networks, for instance, gene regulatory networks (GRNs) that represent the interactions of transcription factors (TFs) and their target genes. Experiments can provide both, the identity and wiring of all constituent parts of the network as well as parameters that allow to describe the processes in the system in a quantative manner. A network provides a straight-forward way to visualize the state and processes of a whole system, its statistical analysis can reveal interesting properties of biological systems, it is able to integrate several datasets from various experiments and simulations of the network can aid to interpret the data. In recent years, microRNAs emerged as important contributors to gene regulation in eukaryotes, breaking the traditional dogma of molecular biology, where DNA is transcribed to RNA which is subsequently translated into proteins. MicroRNAs are small RNAs that are not translated but functional as RNAs: They are able to target specific messenger RNAs (mRNA) and typically lead to their downregulation. Thus, in addition to TFs, microRNAs also play important roles in GRNs. Interestingly, not only animal genomes including the human genome encode microRNAs, but microRNAs are also encoded by several pathogens such as viruses. In this work I developed several computational systems biology methods and applied them to high-throughout experimental data in the context of a project about herpes viral microRNAs. Three methods, ALPS, PARma and REA, are designed for the analysis of certain types of raw data, namely short RNA-seq, PAR-CLIP and RIP-Chip data, respectively. All of theses experiments are widely used and my methods are publicly available on the internet and can be utilized by the research community to analyze new datasets. For these methods I developed non-trivial statistical methods (e.g. the EM algorithm kmerExplain in PARma) and implemented and adapted algorithms from traditional computer science and bioinformatics (e.g. alignment of pattern matrices in ALPS). I applied these novel methods to data measured by our cooperation partners in the herpes virus project. I.a., I discovered and investigated an important aspect of microRNA-mediated regulation: MicroRNAs recognize their targets in a context-dependent manner. The widespread impact of context on regulation is widely accepted for transcriptional regulation, and only few examples are known for microRNA-mediated regulation. By integrating various herpes-related datasets, I could show that context-dependency is not restricted to few examples but is a widespread feature in post-transcriptional regulation mediated by microRNAs. Importantly, this is true for both, for human host microRNAs as well as for viral microRNAs. Furthermore, I considered additional aspects in the data measured in the context of the herpes virus project: Alternative splicing has been shown to be a major contributor to protein diversity. Splicing is tightly regulated and possibly important in virus infection. Mass spectrometry is able to measure peptides quantitatively genome-wide in high-throughput. However, no method was available to detect splicing patterns in mass spectrometry data, which was one of the datasets that has been meausred in the project. Thus, I investigated whether mass spectrometry offers the opportunity to identify cases of differential splicing in large-scale. Finally, I also focussed on networks in systems biology, especially on their simulation. To be able to simulate networks for the prediction of the behavior of systems is one of the central goals in computational systems biology. In my diploma thesis, I developed a comprehensive modeling platform (PNMA, the Petri net modeling application), that is able to simulate biological systems in various ways. For highly detailed simulations, I further developed FERN, a framework for stochastic simulation that is not only integrated in PNMA, but also available stand-alone or as plugins for the widely used software tools Cytoscape or CellDesigner. In systems biology, the major bottleneck is computational analysis, not the generation of data. Experiments become cheaper every year and the throughput and diversity of data increases accordingly. Thus, developing new methods and usable software tools is essential for further progress. The methods I have developed in this work are a step into this direction but it is apparent, that more effort must be devoted to keep up with the massive amounts of data that is being produced and will be produced in the future.

Abstract

Der technische Fortschritt in den letzten Jahren hat ermöglicht, dass vielerlei Parameter von biologischen Prozessen genomweit gemessen werden können. Während die traditionelle Molekularbiologie sich mit Hilfe gezielter Experimente auf individuelle Prozesse konzentriert (reduktionistischer Ansatz), verwendet das Feld der Systembiologie Hochdurchsatz-Experimente um den Zustand eines vollständigen Systems wie einer Zelle auf einmal zu bestimmen (holistischer Ansatz). Dabei besteht Systembiologie nicht nur aus Laborarbeit, sondern benötigt zu einem großen Teil auch speziell zurechtgeschnittene computergestützte Methoden. Hochdurchsatz-Experimente können riesige Mengen an Daten produzieren, welche oft zu komplex sind um von einem Menschen direkt verstanden zu werden, welche beeinträchtigt sind von substantiellem Rauschen, das heißt zufälliger Messvariation, und welche oft beträchtlichem Bias unterliegen, also systematischen Abweichungen der Messungen von der tatsächlichen Größe. Daher sind informatische und statistische Methoden notwendig für eine geeignete Analyse der Rohdaten eines groß angelegten systembiologischen Experiments. Das Ziel der Systembiologoe ist ein ganzen System wie eine Zelle in quantitativer Weise zu verstehen. Daher endet der computergestützte Teil nicht mit der Analyse der Rohdaten, sondern beinhaltet ebenfalls Visualisierung, statistische Analyse, Integration und Interpretation. Ein Beispiel dieser vier rechnergestützten Aufgaben ist wie folgt: Prozesse in biologischen Systemen werden oft in Netzwerken modelliert. Zum Beispiel werden in genregulatorischen Netzwerken (GRNs) die Interaktionen zwischen Transkriptionsfaktoren (TFs) und deren Zielgenen repräsentiert. Mit Experimenten kann man sowohl die Identität und die Vernetzung aller Bestandteile des Netzwerkes messen, wie auch die Parameter, mit denen man die Prozesse des Systems in quantitativer Weise beschreiben kann. Mit Hilfe eines Netzwerkes kann man auf einfache und direkte Weise den Zustand und die Prozesse eines ganzen Systems visualisieren, die statistische Analyse des Netzwerks kann interessante Eigenschaften eines biologischen Systems aufdecken, es bietet die Möglichkeit, verschiedene experimentelle Daten zu integrieren und seine Simulation kann bei der Interpretation der Daten helfen. Erst vor wenigen Jahren stelle sich heraus, dass sogenannte microRNAs die Genregulation in Eukaryonten maßgeblich beeinflussen. Das steht im Widersprich zum traditionellen Dogma der Molekularbiologie, bei dem die genetische Information aus der DNA in RNA transkribiert wird, welche anschließend in Proteine translatiert wird. MicroRNAs hingegen sind kurze RNAs, welche nicht translatiert werden, sondern als RNAs funktional sind. Sie können spezifische messenger RNAs (mRNAs) binden und führen dann typischerweise zu deren Inhibition. Zusätzlich zu Transkriptionsfaktoren spielen also microRNAs eine wichtige Rolle in GRNs. Interessanterweise enkodieren nicht nur tierische Genome, das menschliche Genom eingeschlossen, microRNAs, sondern viele Pathogene wie Viren exprimieren ihre eigenen microRNAs in infizierten Wirtszellen. In dieser Arbeit habe ich mehrere computergestützte Methoden für die Anwendung in der Systembiologie entwickelt und auf Hochdurchsatz-Daten angewendet, die im Kontext eines Projektes über herpesvirale microRNAs vermessen wurden. Drei Methoden, ALPS, PARma und REA, habe ich für die Analyse von bestimmten Typen von Rohdaten entworfen, nämlich jeweils short RNA-seq, PAR-CLIP und RIP-Chip. All diese Experimente sind weit verbreitet im Einsatz und meine Methoden sind im Internet öffentlich verfügbar und können von der Forschungsgemeinschaft zur Analyse der Rohdaten der jeweiligen Experimente verwendet werden. Für diese Methoden entwickelte ich nicht-triviale statistische Methoden (z.B. den EM Algorithmus kmerExplain in PARma) und implementierte und adaptierte Algorithmen aus der traditionellen Informatik wie auch aus der Bioinformatik (z.B. Sequenzalignment der Mustermatrizen in ALPS). Ich wendete diese neuen Methoden auf Daten an, die von unseren Kooperationspartner im Herpesviren Projekt gemessenen wurden. Dabei entdeckte und erforschte ich unter anderem einen wichtigen Aspekt der Regulation durch microRNAs: MicroRNAs erkennen ihre Targets in kontext-abhängiger Weise. Die weitverbreiteten Auswirkungen von Kontext ist weithin akzeptiert für transkriptionelle Regulation und es sind nur wenige Beispiele von kontext-spezifischer microRNA gesteuerte Regulation bekannt. Indem ich mehrere Herpes-relevante Datensätze integriert analysiert habe, konnte ich zeigen, dass Kontext-Abhängigkeit nicht nur auf ein paar Beispiele beschränkt ist, sondern dass es ebenfalls ein weitverbreitetes Merkmal der post-transkriptionellen Regulation gesteuert durch microRNAs ist, dass Zielgene kontext-abhängig erkannt werden. Das gilt sowohl für die menschlichen microRNAs der Wirtszelle wie auch für die exogenen viralen microRNAs. Desweiteren habe ich zusätzliche Aspekte der Daten des Herpesviren-Projektes betrachtet: Es wurde gezeigt, dass alternatives Spleißen maßgeblich zur Diversität von Proteinen beiträgt. Spleißen ist streng reguliert und möglicherweise wichtig bei der Virusinfektion. Massenspektrometrie kann Peptide genomweit in quantitativer Weise messen. Allerdings stand keine Methode zur Verfügung, um Spleiß-Muster in Massenspektrometrie-Daten, wie sie im Projekt gemessen wurden, zu detektieren. Aus diesem Grund habe ich untersucht, ob es mit Massenspektrometrie-Daten möglich ist, Fälle von alternativen Spleißen im großen Umfang zu identifizieren. Letztendlich habe ich mich auch auf systembiologische Netzwerke und im Speziellen auf deren Simulation konzentriert. Netzwerke simulieren zu können um das Verhalten von Systemen vorherzusagen ist eines der zentralen Ziele der rechnergestützten Systembiologie. Bereits in meiner Diplomarbeit habe dafür ich eine umfassende Modellierplatform (PNMA, the Petri net modelling application) entwickelt. Damit ist es möglich, biologische Systeme auf vielerlei Arten zu simulieren. Für sehr detailierte Simulationen habe ich dann FERN entwickelt, ein Framework zur stochastischen Simulation, welches nicht nur in PNMA integriert ist, sondern auch als eigenständige Software wie auch also Plugin für die weitverbreiteten Programme Cytoscape und CellDesigner verfügbar ist. Der Engpass in der Systembiologie ist mehr und mehr die rechnergestützte Analyse der Daten und nicht deren Generierung. Experimente werden jedes Jahr günstiger und der Durchsatz und die Diversität der Daten wächst dementsprechend. Daher is es für den weiteren wissenschaftlichen Fortschritt essentiell, neue Methoden und benutzbare Softwarepakete zu entwickeln. Die Methoden, die ich in dieser Arbeit entwickelt habe, stellen einen Schritt in diese Richtung dar, aber es ist offensichtlich, dass mehr Anstrengungen aufgewendet werden müssen, um Schritt halten zu können mit den riesigen Mengen an Daten die produziert werden und in der Zukunft noch produziert werden.