| Restrepo Lopez, Juan (2025): Integrating machine learning and physics-based models for enhanced computational workflows in mass spectrometry. Dissertation, LMU München: Fakultät für Physik |
Vorschau |
PDF
Restrepo_Juan.pdf 11MB |
Abstract
Mass spectrometry-based proteomics is a cornerstone of modern systems biology, enabling the large-scale identification and quantification of proteins from complex biological samples. However, despite advances in instrumentation and data acquisition strategies, the computational interpretation of mass spectra remains a significant challenge. I begin this thesis with an introduction to mass spectrometry-based proteomics, covering the workflow from experimental setup to data analysis. I then present two complementary projects that enhance identification confidence and peptide coverage in proteomics workflows by integrating machine learning with physics-based model-ing. The first project not only contributes to improved predictive accuracy but also provides a mechanistic explanation for a newly observed phenomenon in ion mobility experiments. The first project explores how structural and physical properties of peptides can be used to enhance identification, focusing on gas-phase peptide conformations. We combine molecular dynamics simulations, ion mobility calculations, and collision cross section prediction(CCS) with machine learning to show that certain peptides exhibit bimodal CCS distributions in the gas phase, reflecting the presence of stable conformers. By modeling these distributions and predicting CCS values from peptide sequences, we improve peptide matching and reduce ambiguity in identifications. This integrative strategy demonstrates that even subtle physical features—when combined with predictive modeling—can yield meaningful improvements in peptide discrimination. The second project focuses on the development of a machine learning-based re-scoring framework for peptide-spectrum matches(PSMs) in data-dependent acquisition work-flows. Existing scoring algorithms used by standard search engines often fail to fully leverage the rich features embedded in modern spectra. In response, we propose a model that re-evaluates the PSMs using learned discriminative patterns derived from spectrum-sequence pairs. The model significantly increases identification sensitivity across multiple datasets and maintains well-calibrated false discovery rate control. This approach demonstrates that high-confidence identifications can be obtained using only spectrum and peptide sequence as input, without requiring auxiliary metadata or feature engineering. Together, these two projects support a broader vision: that integrating data-driven learning methods with physically meaningful representations enables more accurate and robust peptide identification in mass spectrometry proteomics. By advancing both the theoretical and practical understanding of the peptide identification problem, this work contributes to the development of more reliable and interpretable computational proteomics pipelines.
Abstract
Massenspektrometrie-basierte Proteomik ist eine grundlegende Technik der modernen Systembiologie und ermöglicht die Identifikation und Quantifizierung zahlreicher Proteine aus komplexen biologischen Proben. Trotz erheblicher Fortschritte bei Messinstrumenten und -strategien stellt die computergestützte Interpretation von Massenspektren weiterhin eine große Herausforderung dar. Ich beginne diese Dissertation mit einer Einführung in die massenspektrometrie-basierte Proteomik und erläutere den gesamten Workflow – von der experimentellen Durchführung bis zur Datenanalyse. Anschließend präsentiere ich zwei komplemen-täre Projekte, die durch die Integration von maschinellem Lernen und physikbasiertem Modellieren sowohl das Vertrauen in die Identifikation als auch die Peptidabdeckung in Proteomik-Workflows verbessern. Das erste Projekt trägt nicht nur zu einer höheren Vorhersagegenauigkeit bei, sondern liefert auch eine mechanistische Erklärung für ein neu beobachtetes Phänomen in Ionenmobilitätsexperimenten. Das erste Projekt untersucht, wie strukturelle und physikalische Eigenschaften von Peptiden zur Verbesserung der Identifikation genutzt werden können. Hierbei liegt der Fokus auf Peptidkonformationen in der Gasphase. Für die Auswertung kombinieren wir Molekulardynamik-Simulationen, Berechnungen der Ionenmobilität und die Vorhersage von Kollisionsquerschnitten (engl. collision cross section, CCS) mit maschinellem Lernen. Dabei zeigt sich, dass bestimmte Peptide bimodale CCS-Verteilungen in der Gasphase aufweisen, was auf das Vorhandensein stabiler Konformere hinweist. Durch das Modellieren dieser Verteilungen und die Vorhersage von CCS-Werten aus Peptidsequenzen verbessern wir die Peptidzuordnung und verringern die Ambiguität bei der Identifikation. Diese integrative Strategie zeigt, dass selbst subtile physikalische Merkmale – kombiniert mit prädiktiven Modellen – zu bedeutenden Verbesserungen bei der Identifikation von Peptiden führen können. Das zweite Projekt konzentriert sich auf die Entwicklung eines maschinellen Lernmod-ells zur Neugewichtung von Peptid-Spektrum-Zuordnungen (engl. peptide-spectrum matches, PSMs) in datenabhängigen Akquisitionsverfahren (engl. data-dependent acquisition, DDA). Die in gängigen Suchmaschinen verwendeten Algorithmen nutzen oft nicht das volle Potenzial der in modernen Spektren enthaltenen Informationen. Als Antwort darauf schlagen wir ein Modell vor, das PSMs auf Basis gelernter, unter-scheidbarer Muster aus Spektrum-Sequenz-Paaren neu bewertet. Das Modell steigert signifikant die Genauigkeit der Identifikation in verschiedenen Datensätzen und gewährleistet eine gut kalibrierte Kontrolle der Fehlerentdeckungsrate (engl. false discovery rate, FDR). Dieser Ansatz zeigt, dass vertrauenswürdige Identifikationen allein auf Basis von Spektrum und Peptidsequenz – ohne zusätzliche Metadaten oder Feature-Engineering – möglich sind. Zusammen unterstützen diese beiden Projekte eine übergeordnete Vision: die Integra-tion datengetriebener Lernmethoden mit physikalisch sinnvollen Repräsentationen, um eine genauere und robustere Peptididentifikation in der massenspektrometrischen Proteomik zu ermöglichen. Durch die Weiterentwicklung sowohl des theoretischen als auch des praktischen Verständnisses des Problems der Peptididentifikation leistet diese Arbeit einen Beitrag zur Entwicklung zuverlässigerer und interpretierbarer rechnergestützter Auswertungspipelines in der Proteomik.
| Dokumententyp: | Dissertationen (Dissertation, LMU München) |
|---|---|
| Themengebiete: | 500 Naturwissenschaften und Mathematik
500 Naturwissenschaften und Mathematik > 530 Physik |
| Fakultäten: | Fakultät für Physik |
| Sprache der Hochschulschrift: | Englisch |
| Datum der mündlichen Prüfung: | 21. Oktober 2025 |
| 1. Berichterstatter:in: | Schwille, Petra |
| MD5 Prüfsumme der PDF-Datei: | eb4432b991d19537064323c0fdf33182 |
| Signatur der gedruckten Ausgabe: | 0001/UMC 31657 |
| ID Code: | 36300 |
| Eingestellt am: | 17. Dec. 2025 14:23 |
| Letzte Änderungen: | 17. Dec. 2025 14:23 |