| Schwehn, Patrick Maximilian (2026): Inferring protein from transcript abundances using convolutional neural networks. Dissertation, LMU München: Fakultät für Biologie |
Vorschau |
PDF
Schwehn_Patrick_Maximilian.pdf 13MB |
Abstract
Progress in personalized medicine and crop optimization hinges on quantitative, systems-level insights into how genotype and environment shape cellular phenotypes. Because proteins and their interactions underlie nearly all cellular functions, fluctuations in their concentrations strongly influence phenotypic outcomes. Yet protein measurements remain far more expensive than high-throughput mRNA assays, which are therefore often used as surrogates even though transcript and protein levels correlate only imperfectly. Recent advances in artificial intelligence offer a promising approach to reduce this inaccuracy. I therefore developed species-specific convolutional neural networks (CNNs) for Homo sapiens and Arabidopsis thaliana that predict protein abundances directly from paired transcript abundances and raw sequence data. Trained on matched transcriptome-proteome datasets, the models achieve coefficients of determination of 0.30 and 0.32, respectively. They improve accuracy for H. sapiens by about 40% over the best sequence-based approach and provide the first published model for A. thaliana. Analysis of the learned filter weights shows that the networks autonomously rediscover known regulatory motifs governing mRNA decay and translation while identifying several novel elements that merit experimental validation. An extended architecture that incorporates expression profiles of putative interaction partners does not yet surpass the sequence-only model, underscoring the need for larger, condition-rich training sets. I also developed an automated image-analysis pipeline for high-throughput yeast two-hybrid systems. Classical computer-vision algorithms locate 96-well plate grids, and a second CNN scores yeast colony growth, generating quantitative protein-protein interaction networks from thousands of colonies. Integrating these curated interaction data with graph-convolutional modules alongside sequence features processed by conventional convolutions offers a promising route to further improve the accuracy of protein abundance prediction. Collectively, these contributions demonstrate how CNNs can both extract and predict reliable biological information from raw experimental data, advancing systems-level modeling of gene expression and enabling scalable applications in personalized medicine and crop improvement.
Abstract
Fortschritte in der personalisierten Medizin und der Optimierung von Nutzpflanzen erfordern quantitative, systemische Einblicke, wie Genotyp und Umwelt zelluläre Phänotypen prägen. Da Proteine und ihre Interaktionen nahezu alle zellulären Funktionen bestimmen, führen Schwankungen ihrer Konzentrationen zu erheblichen Veränderungen der Phänotypen. Proteinmessungen sind jedoch deutlich kostspieliger als Hochdurchsatz-mRNA-Analysen, die daher häufig als Annäherung dienen, obwohl Transkript- und Proteinkonzentrationen nur teilweise korrelieren. Aktuelle Entwicklungen in der künstlichen Intelligenz bieten einen vielversprechenden Ansatz, diese Ungenauigkeit zu verringern. Daher habe ich für Homo sapiens und Arabidopsis thaliana speziesspezifische Convolutional Neural Networks (CNNs) entwickelt, die Protein- aus den zugehörigen Transkriptkonzentrationen und Rohsequenzdaten vorhersagen. Die auf gepaarten Transkriptom-Proteom-Datensätzen trainierten Modelle erreichen Bestimmtheitsmaße von 0,30 beziehungsweise 0,32. Damit steigern sie die Vorhersagegenauigkeit für H. sapiens um etwa 40 % gegenüber dem bislang besten sequenzbasierten Ansatz und stellen zugleich das erste veröffentlichte Modell für A. thaliana dar. Eine Analyse der gelernten Parameter zeigt, dass die Modelle eigenständig bekannte regulatorische Motive wiederentdecken, die den mRNA-Abbau und die Translation steuern, und mehrere bislang unbekannte Elemente identifizieren, die als Grundlage experimenteller Untersuchungen dienen können. Eine erweiterte Architektur, die Expressionsprofile potenzieller Interaktionspartner berücksichtigt, übertrifft das rein sequenzbasierte Modell bislang noch nicht und unterstreicht den Bedarf an größeren, konditionsreichen Trainingsdatensätzen. Darüber hinaus habe ich eine automatisierte Bildanalyse-Pipeline für Hochdurchsatz-Yeast-Two-Hybrid-Systeme entwickelt. Klassische Algorithmen lokalisieren das Raster der 96-Well-Platten und ein weiteres CNN bewertet das Wachstum der Hefekolonien, sodass aus Tausenden von Kolonien quantitative Protein-Protein-Interaktionsnetzwerke entstehen. Die Integration dieser kuratierten Interaktionsdaten mit Graph-Convolutional-Modulen und Sequenzmerkmalen, die durch konventionelle Convolutions verarbeitet werden, bietet einen vielversprechenden Ansatz, die Genauigkeit der Proteinkonzentrationsvorhersage weiter zu steigern. Insgesamt zeigen diese Arbeiten, wie CNNs die Extraktion und Vorhersage zuverlässiger biologischer Informationen aus experimentellen Rohdaten ermöglichen. Dies fördert die systemische Modellierung der Genexpression und unterstützt das Hochskalieren von Anwendungen in der personalisierten Medizin und der Nutzpflanzenoptimierung.
| Dokumententyp: | Dissertationen (Dissertation, LMU München) |
|---|---|
| Keywords: | Translational regulation Protein-to-mRNA ratio Convolutional neural networks Regression analysis Explainable AI |
| Themengebiete: | 500 Naturwissenschaften und Mathematik
500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie |
| Fakultäten: | Fakultät für Biologie |
| Sprache der Hochschulschrift: | Englisch |
| Datum der mündlichen Prüfung: | 23. Februar 2026 |
| 1. Berichterstatter:in: | Falter-Braun, Pascal |
| MD5 Prüfsumme der PDF-Datei: | 5484feddc1f8a0043faa644c9f663a68 |
| Signatur der gedruckten Ausgabe: | 0001/UMC 31810 |
| ID Code: | 36683 |
| Eingestellt am: | 03. Mar. 2026 12:37 |
| Letzte Änderungen: | 03. Mar. 2026 12:38 |