Logo Logo
Help
Contact
Switch language to German
Data analysis for genomics, transcriptomics and proteomics
Data analysis for genomics, transcriptomics and proteomics
Genomics, transcriptomics, and proteomics are fundamental blocks that shaped modern biology. High throughput and large-scale techniques, such as next-generation sequencing (NGS) and mass spectrometry (MS), have been widely used in the life sciences. Due to the complexity of these data, the analysis needs to be done by sophisticated bioinfor-matic methods. During my doctorate research, I developed new computational methods and applied new strategies to advance the research in genomics, transcriptomics, and proteomics. NGS has brought tremendous and numerous changes to genomic research by providing higher sensitivity, sequencing depth, and throughput compared with traditional sequenc-ing methods, such as Sanger sequencing, qPCR, and microarrays. Benefiting from the advantages of NGS technology, RNA-seq has been widely used for the qualitative and quantitative analysis of genome wide changes in gene expression. Chromatin immuno-precipitation sequencing (ChIP-seq) as another popular application of NGS provides an efficient way to analyze the interaction between proteins and DNA. During my doctoral studies, I used these techniques to uncover the mechanisms behind the hybrid incompat-ibility between Drosophila melanogaster and D.simulans. The loss of HMR in D.melanogaster leads to mitotic defects, increased transcription of transposable elements, and deregulated heterochromatic genes. Through the genome-wide analysis of HMR’s localization by ChIP-seq, I found that genomic insulator sites bound by HMR can be grouped into two clusters. One set is composed of gypsy insula-tors, whereas the other is bordered by HP1a-bound areas of active genes. In Hmr mu-tant flies, the transcription of genes belonging to the latter group is severely disrupted in larval tissue and ovaries. These findings showed a novel connection between HMR and insulator proteins, indicating a possible role for genome organization in species devel-opment. Beyond the study of particular genes, and RNA transcripts, I also dedicated my work towards improving proteomic research by accurately predicting fragmentation patterns of peptides in tandem mass spectrometry (MS) with deep-learning. MS is an important and powerful technology for proteomic research. In recent years, with the development of both theoretical and industrial technology and methods, the research scope of proteome has improved at an unprecedented speed. SWATH-MS is a mass spectrometric technique that combines the advantages of targeted data analysis and combines it with the speed of time-of-flight (ToF) mass spectrometers to improve peptide quantitation and identification in a data-independent acquisition (DIA) mode. SWATH-MS can analyze proteomes on a much larger scale than traditional methods such as data-dependent acquisition (DDA), parallel reaction monitoring (PRM), or se-lected reaction monitoring (SRM) due to its increased reproducibility and accuracy. Moreover, SWATH-MS shows a significant increase in the detection rates of peptides and proteins along with higher accurate quantifications. However, mass spectra data generated by SWATH-MS showed a higher complexity compared to the traditional DDA mass spectrometry method. Therefore, more accurate data analysis strategies were required to address this complexity. At the beginning of my doctorate, SWATH-MS relied entirely on fragment libraries generated by DDA ex-periments, which greatly limited the number of detectible and identifiable peptides. Hence, the extension of the search space is crucial to improve both identification and quantitation on a proteome-wide scale, especially for SWATH-MS analysis. With the development of new computational approaches to complex problems, more and more biological questions were addressed successfully. In this work, we applied such advanced methods to build a prediction framework that is composed of several tools: dpMS for mass spectra prediction, dpRT for retention time prediction, and dpMC for missed tryptic cleavages prediction, along with other new strategies to improve the ef-fective search space for SWATH-MS in high quality. With the in-silico library, we can identify proteins and peptides that exceed the experimental library limitation. We demonstrated the reproducibility and efficiency of dpSWATH across different organ-isms from D. melanogaster and H. sapiens on a Q-TOF instrument. With different ex-perimental conditions, dpSWATH can build highly reliable theoretical libraries for SWATH-MS analysis. Consequently, the new searching space has improved both sensi-tivity and specificity for SWATH-MS analysis at a higher level. Within this thesis I summarize three publications I (co)authored: one of which is on the analysis of next generation sequencing, and the other two are on the work of pre-dictions for mass spectrometry, which are listed above., Genomik, Transkriptomik und Proteomik sind grundlegende Bausteine, die die moderne Biologie geprägt haben. Hochdurchsatz- und groß angelegte Techniken wie die Hoch-Durchsatz Sequenzierung (NGS) und die Massenspektrometrie (MS) werden in den Biowissenschaften in großem Umfang eingesetzt. Aufgrund der Komplexität dieser Daten muss die Analyse mit ausgefeilten bioinformatischen Methoden durchgeführt werden. Während meiner Doktorarbeit habe ich neue Methoden entwickelt und neue Strategien angewandt, um die Forschung in den Bereichen Genomik, Transkriptomik und Proteomik voranzutreiben. NGS hat die Genomforschung in vielerlei Hinsicht verändert, da es im Vergleich zu herkömmlichen Sequenzierungsmethoden wie Sanger-Sequenzierung, qPCR und Microarrays eine höhere Empfindlichkeit, Sequenzierungstiefe und einen höheren Durchsatz bietet. RNA-seq profitiert von den Vorteilen der NGS-Technologie und wurde in großem Umfang für die qualitative und quantitative Analyse genomweiter Veränderungen der Genexpression eingesetzt. Die Chromatin-Immunpräzipitations-Sequenzierung (ChIP-seq), eine weitere Anwendung von NGS, bietet eine effiziente Möglichkeit zur Analyse der Interaktion zwischen Proteinen und DNA. Während meines Promotionsstudiums habe ich diese Techniken eingesetzt, um die Mechanismen hinter der Hybridinkompatibilität zwischen Drosophila melanogaster und Drosophila simulans aufzudecken. Der Verlust von HMR in D. melanogaster führt zu mitotischen Defekten, erhöhter Transkription von transposablen Elementen und deregulierten heterochromatischen Genen. Durch die genomweite Analyse der HMR-Lokalisierung mittels ChIP-seq habe ich herausgefunden, dass genomische Isolatorstellen, die von HMR gebunden werden, in zwei Gruppen unterteilt werden können. Die eine Gruppe besteht aus Gypsy-Insulatoren, während die andere von HP1a-gebundenen Bereichen aktiver Gene begrenzt wird. Bei Hmr-mutierten Fliegen ist die Transkription von Genen, die zur letzteren Gruppe gehören, im Larvengewebe und in den Eierstöcken stark gestört. Diese Ergebnisse zeigen eine neuartige Verbindung zwischen HMR und Isolatorproteinen, was auf eine mögliche Rolle der Genomorganisation bei der Entwicklung von Arten hinweist. Neben der Untersuchung bestimmter Gene und RNA-Transkripte widmete ich meine Arbeit auch der Verbesserung der Proteomforschung durch die genaue Vorhersage von Fragmentierungsmustern von Peptiden in der Tandem-Massenspektrometrie (MS) mit Hilfe von Deep-learning. Die MS ist eine wichtige und leistungsfähige Technologie in der Proteomforschung. In den letzten Jahren hat sich der Umfang der Proteomforschung durch die Entwicklung sowohl theoretischer als auch experimenteller Technologien und Methoden dramatisch verbessert. SWATH-MS ist eine massenspektrometrische Methode, die die Vorteile der gezielten Untersuchung von individuellen Analyten mit der Geschwindigkeit von Flugzeit-Massenspektrometern kombiniert, um die Quantifizierung und Identifizierung von Peptiden in einer datenunabhängigen Messung (DIA) zu verbessern. SWATH-MS kann Proteome in einem viel größeren Umfang analysieren als herkömmliche Methoden wie die datenabhängige Messung (DDA), die parallele Messung von Fragmentübergängen (PRM) oder die Messung ausgewählter Fragmente (SRM), da es eine höhere Reproduzierbarkeit und Genauigkeit bietet. Darüber hinaus zeigt SWATH-MS eine signifikante Steigerung der Detektionsraten von Peptiden und Proteinen zusammen mit einer höheren Quantifizierungsgenauigkeit. Die mit SWATH-MS erzeugten Massenspektren sind jedoch komplexer als bei der herkömmlichen DDA-Massenspektrometrie. Daher sind genauere Datenanalysestrategien erforderlich, um diese Komplexität zu bewältigen. Zu Beginn meiner Promotion stützte sich SWATH-MS ausschließlich auf Fragmentbibliotheken, die aus DDA-Experimenten stammten, was die Zahl der nachweisbaren und identifizierbaren Peptide stark einschränkte. Durch die von mir entwickelte Methode konnte ich den Suchraum deutlich erweitern, um sowohl die Identifizierung als auch die Quantifizierung auf proteomweiter Ebene zu verbessern. Mit der Entwicklung neuer computergestützter Ansätze für komplexe Probleme konnten immer mehr biologische Fragen erfolgreich beantwortet werden. Die von mir entwickelte bioinformatische Methode besteht aus mehreren Komponenten: dpMS für die Vorhersage von Fragmentspektren, dpRT für die Vorhersage von Retentionszeiten und dpMC für die Vorhersage tryptischer Spaltungen, um den effektiven Suchraums für SWATH-MS zu erweitern. Mit der so (in-silico) generierten Bibliothek von Fragmentspektren konnte ich deutlich mehr Proteine und Peptide identifizieren. Ich konnte die Reproduzierbarkeit und Effizienz von dpSWATH durch Messung von Proteomen aus verschiedenen Organismen auf einem Q-TOF-Instrument nachgeweisen. Unter verschiedenen Versuchsbedingungen kann dpSWATH sehr zuverlässige theoretische Bibliotheken für die SWATH-MS-Analyse erstellen und damit die Sensitivität als auch die Spezifität der SWATH-MS-Analyse verbessern. In dieser Arbeit fasse ich drei Publikationen zusammen, die ich (mit-)verfasst habe: eine davon befasst sich mit der Analyse von Next Generation Sequencing, die beiden anderen mit der Arbeit an Vorhersagen für die Massenspektrometrie, die oben aufgeführt sind.
trypsin, missed cleavage, prediction, proteomics, spectral Library, data independent acquisition, deep learning, mass spectrometry
Sun, Bo
2023
English
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Sun, Bo (2023): Data analysis for genomics, transcriptomics and proteomics. Dissertation, LMU München: Faculty of Medicine
[thumbnail of Sun_Bo.pdf]
Preview
PDF
Sun_Bo.pdf

17MB

Abstract

Genomics, transcriptomics, and proteomics are fundamental blocks that shaped modern biology. High throughput and large-scale techniques, such as next-generation sequencing (NGS) and mass spectrometry (MS), have been widely used in the life sciences. Due to the complexity of these data, the analysis needs to be done by sophisticated bioinfor-matic methods. During my doctorate research, I developed new computational methods and applied new strategies to advance the research in genomics, transcriptomics, and proteomics. NGS has brought tremendous and numerous changes to genomic research by providing higher sensitivity, sequencing depth, and throughput compared with traditional sequenc-ing methods, such as Sanger sequencing, qPCR, and microarrays. Benefiting from the advantages of NGS technology, RNA-seq has been widely used for the qualitative and quantitative analysis of genome wide changes in gene expression. Chromatin immuno-precipitation sequencing (ChIP-seq) as another popular application of NGS provides an efficient way to analyze the interaction between proteins and DNA. During my doctoral studies, I used these techniques to uncover the mechanisms behind the hybrid incompat-ibility between Drosophila melanogaster and D.simulans. The loss of HMR in D.melanogaster leads to mitotic defects, increased transcription of transposable elements, and deregulated heterochromatic genes. Through the genome-wide analysis of HMR’s localization by ChIP-seq, I found that genomic insulator sites bound by HMR can be grouped into two clusters. One set is composed of gypsy insula-tors, whereas the other is bordered by HP1a-bound areas of active genes. In Hmr mu-tant flies, the transcription of genes belonging to the latter group is severely disrupted in larval tissue and ovaries. These findings showed a novel connection between HMR and insulator proteins, indicating a possible role for genome organization in species devel-opment. Beyond the study of particular genes, and RNA transcripts, I also dedicated my work towards improving proteomic research by accurately predicting fragmentation patterns of peptides in tandem mass spectrometry (MS) with deep-learning. MS is an important and powerful technology for proteomic research. In recent years, with the development of both theoretical and industrial technology and methods, the research scope of proteome has improved at an unprecedented speed. SWATH-MS is a mass spectrometric technique that combines the advantages of targeted data analysis and combines it with the speed of time-of-flight (ToF) mass spectrometers to improve peptide quantitation and identification in a data-independent acquisition (DIA) mode. SWATH-MS can analyze proteomes on a much larger scale than traditional methods such as data-dependent acquisition (DDA), parallel reaction monitoring (PRM), or se-lected reaction monitoring (SRM) due to its increased reproducibility and accuracy. Moreover, SWATH-MS shows a significant increase in the detection rates of peptides and proteins along with higher accurate quantifications. However, mass spectra data generated by SWATH-MS showed a higher complexity compared to the traditional DDA mass spectrometry method. Therefore, more accurate data analysis strategies were required to address this complexity. At the beginning of my doctorate, SWATH-MS relied entirely on fragment libraries generated by DDA ex-periments, which greatly limited the number of detectible and identifiable peptides. Hence, the extension of the search space is crucial to improve both identification and quantitation on a proteome-wide scale, especially for SWATH-MS analysis. With the development of new computational approaches to complex problems, more and more biological questions were addressed successfully. In this work, we applied such advanced methods to build a prediction framework that is composed of several tools: dpMS for mass spectra prediction, dpRT for retention time prediction, and dpMC for missed tryptic cleavages prediction, along with other new strategies to improve the ef-fective search space for SWATH-MS in high quality. With the in-silico library, we can identify proteins and peptides that exceed the experimental library limitation. We demonstrated the reproducibility and efficiency of dpSWATH across different organ-isms from D. melanogaster and H. sapiens on a Q-TOF instrument. With different ex-perimental conditions, dpSWATH can build highly reliable theoretical libraries for SWATH-MS analysis. Consequently, the new searching space has improved both sensi-tivity and specificity for SWATH-MS analysis at a higher level. Within this thesis I summarize three publications I (co)authored: one of which is on the analysis of next generation sequencing, and the other two are on the work of pre-dictions for mass spectrometry, which are listed above.

Abstract

Genomik, Transkriptomik und Proteomik sind grundlegende Bausteine, die die moderne Biologie geprägt haben. Hochdurchsatz- und groß angelegte Techniken wie die Hoch-Durchsatz Sequenzierung (NGS) und die Massenspektrometrie (MS) werden in den Biowissenschaften in großem Umfang eingesetzt. Aufgrund der Komplexität dieser Daten muss die Analyse mit ausgefeilten bioinformatischen Methoden durchgeführt werden. Während meiner Doktorarbeit habe ich neue Methoden entwickelt und neue Strategien angewandt, um die Forschung in den Bereichen Genomik, Transkriptomik und Proteomik voranzutreiben. NGS hat die Genomforschung in vielerlei Hinsicht verändert, da es im Vergleich zu herkömmlichen Sequenzierungsmethoden wie Sanger-Sequenzierung, qPCR und Microarrays eine höhere Empfindlichkeit, Sequenzierungstiefe und einen höheren Durchsatz bietet. RNA-seq profitiert von den Vorteilen der NGS-Technologie und wurde in großem Umfang für die qualitative und quantitative Analyse genomweiter Veränderungen der Genexpression eingesetzt. Die Chromatin-Immunpräzipitations-Sequenzierung (ChIP-seq), eine weitere Anwendung von NGS, bietet eine effiziente Möglichkeit zur Analyse der Interaktion zwischen Proteinen und DNA. Während meines Promotionsstudiums habe ich diese Techniken eingesetzt, um die Mechanismen hinter der Hybridinkompatibilität zwischen Drosophila melanogaster und Drosophila simulans aufzudecken. Der Verlust von HMR in D. melanogaster führt zu mitotischen Defekten, erhöhter Transkription von transposablen Elementen und deregulierten heterochromatischen Genen. Durch die genomweite Analyse der HMR-Lokalisierung mittels ChIP-seq habe ich herausgefunden, dass genomische Isolatorstellen, die von HMR gebunden werden, in zwei Gruppen unterteilt werden können. Die eine Gruppe besteht aus Gypsy-Insulatoren, während die andere von HP1a-gebundenen Bereichen aktiver Gene begrenzt wird. Bei Hmr-mutierten Fliegen ist die Transkription von Genen, die zur letzteren Gruppe gehören, im Larvengewebe und in den Eierstöcken stark gestört. Diese Ergebnisse zeigen eine neuartige Verbindung zwischen HMR und Isolatorproteinen, was auf eine mögliche Rolle der Genomorganisation bei der Entwicklung von Arten hinweist. Neben der Untersuchung bestimmter Gene und RNA-Transkripte widmete ich meine Arbeit auch der Verbesserung der Proteomforschung durch die genaue Vorhersage von Fragmentierungsmustern von Peptiden in der Tandem-Massenspektrometrie (MS) mit Hilfe von Deep-learning. Die MS ist eine wichtige und leistungsfähige Technologie in der Proteomforschung. In den letzten Jahren hat sich der Umfang der Proteomforschung durch die Entwicklung sowohl theoretischer als auch experimenteller Technologien und Methoden dramatisch verbessert. SWATH-MS ist eine massenspektrometrische Methode, die die Vorteile der gezielten Untersuchung von individuellen Analyten mit der Geschwindigkeit von Flugzeit-Massenspektrometern kombiniert, um die Quantifizierung und Identifizierung von Peptiden in einer datenunabhängigen Messung (DIA) zu verbessern. SWATH-MS kann Proteome in einem viel größeren Umfang analysieren als herkömmliche Methoden wie die datenabhängige Messung (DDA), die parallele Messung von Fragmentübergängen (PRM) oder die Messung ausgewählter Fragmente (SRM), da es eine höhere Reproduzierbarkeit und Genauigkeit bietet. Darüber hinaus zeigt SWATH-MS eine signifikante Steigerung der Detektionsraten von Peptiden und Proteinen zusammen mit einer höheren Quantifizierungsgenauigkeit. Die mit SWATH-MS erzeugten Massenspektren sind jedoch komplexer als bei der herkömmlichen DDA-Massenspektrometrie. Daher sind genauere Datenanalysestrategien erforderlich, um diese Komplexität zu bewältigen. Zu Beginn meiner Promotion stützte sich SWATH-MS ausschließlich auf Fragmentbibliotheken, die aus DDA-Experimenten stammten, was die Zahl der nachweisbaren und identifizierbaren Peptide stark einschränkte. Durch die von mir entwickelte Methode konnte ich den Suchraum deutlich erweitern, um sowohl die Identifizierung als auch die Quantifizierung auf proteomweiter Ebene zu verbessern. Mit der Entwicklung neuer computergestützter Ansätze für komplexe Probleme konnten immer mehr biologische Fragen erfolgreich beantwortet werden. Die von mir entwickelte bioinformatische Methode besteht aus mehreren Komponenten: dpMS für die Vorhersage von Fragmentspektren, dpRT für die Vorhersage von Retentionszeiten und dpMC für die Vorhersage tryptischer Spaltungen, um den effektiven Suchraums für SWATH-MS zu erweitern. Mit der so (in-silico) generierten Bibliothek von Fragmentspektren konnte ich deutlich mehr Proteine und Peptide identifizieren. Ich konnte die Reproduzierbarkeit und Effizienz von dpSWATH durch Messung von Proteomen aus verschiedenen Organismen auf einem Q-TOF-Instrument nachgeweisen. Unter verschiedenen Versuchsbedingungen kann dpSWATH sehr zuverlässige theoretische Bibliotheken für die SWATH-MS-Analyse erstellen und damit die Sensitivität als auch die Spezifität der SWATH-MS-Analyse verbessern. In dieser Arbeit fasse ich drei Publikationen zusammen, die ich (mit-)verfasst habe: eine davon befasst sich mit der Analyse von Next Generation Sequencing, die beiden anderen mit der Arbeit an Vorhersagen für die Massenspektrometrie, die oben aufgeführt sind.