Logo Logo
Hilfe
Kontakt
Switch language to English
Inferring protein from transcript abundances using convolutional neural networks
Inferring protein from transcript abundances using convolutional neural networks
Progress in personalized medicine and crop optimization hinges on quantitative, systems-level insights into how genotype and environment shape cellular phenotypes. Because proteins and their interactions underlie nearly all cellular functions, fluctuations in their concentrations strongly influence phenotypic outcomes. Yet protein measurements remain far more expensive than high-throughput mRNA assays, which are therefore often used as surrogates even though transcript and protein levels correlate only imperfectly. Recent advances in artificial intelligence offer a promising approach to reduce this inaccuracy. I therefore developed species-specific convolutional neural networks (CNNs) for Homo sapiens and Arabidopsis thaliana that predict protein abundances directly from paired transcript abundances and raw sequence data. Trained on matched transcriptome-proteome datasets, the models achieve coefficients of determination of 0.30 and 0.32, respectively. They improve accuracy for H. sapiens by about 40% over the best sequence-based approach and provide the first published model for A. thaliana. Analysis of the learned filter weights shows that the networks autonomously rediscover known regulatory motifs governing mRNA decay and translation while identifying several novel elements that merit experimental validation. An extended architecture that incorporates expression profiles of putative interaction partners does not yet surpass the sequence-only model, underscoring the need for larger, condition-rich training sets. I also developed an automated image-analysis pipeline for high-throughput yeast two-hybrid systems. Classical computer-vision algorithms locate 96-well plate grids, and a second CNN scores yeast colony growth, generating quantitative protein-protein interaction networks from thousands of colonies. Integrating these curated interaction data with graph-convolutional modules alongside sequence features processed by conventional convolutions offers a promising route to further improve the accuracy of protein abundance prediction. Collectively, these contributions demonstrate how CNNs can both extract and predict reliable biological information from raw experimental data, advancing systems-level modeling of gene expression and enabling scalable applications in personalized medicine and crop improvement., Fortschritte in der personalisierten Medizin und der Optimierung von Nutzpflanzen erfordern quantitative, systemische Einblicke, wie Genotyp und Umwelt zelluläre Phänotypen prägen. Da Proteine und ihre Interaktionen nahezu alle zellulären Funktionen bestimmen, führen Schwankungen ihrer Konzentrationen zu erheblichen Veränderungen der Phänotypen. Proteinmessungen sind jedoch deutlich kostspieliger als Hochdurchsatz-mRNA-Analysen, die daher häufig als Annäherung dienen, obwohl Transkript- und Proteinkonzentrationen nur teilweise korrelieren. Aktuelle Entwicklungen in der künstlichen Intelligenz bieten einen vielversprechenden Ansatz, diese Ungenauigkeit zu verringern. Daher habe ich für Homo sapiens und Arabidopsis thaliana speziesspezifische Convolutional Neural Networks (CNNs) entwickelt, die Protein- aus den zugehörigen Transkriptkonzentrationen und Rohsequenzdaten vorhersagen. Die auf gepaarten Transkriptom-Proteom-Datensätzen trainierten Modelle erreichen Bestimmtheitsmaße von 0,30 beziehungsweise 0,32. Damit steigern sie die Vorhersagegenauigkeit für H. sapiens um etwa 40 % gegenüber dem bislang besten sequenzbasierten Ansatz und stellen zugleich das erste veröffentlichte Modell für A. thaliana dar. Eine Analyse der gelernten Parameter zeigt, dass die Modelle eigenständig bekannte regulatorische Motive wiederentdecken, die den mRNA-Abbau und die Translation steuern, und mehrere bislang unbekannte Elemente identifizieren, die als Grundlage experimenteller Untersuchungen dienen können. Eine erweiterte Architektur, die Expressionsprofile potenzieller Interaktionspartner berücksichtigt, übertrifft das rein sequenzbasierte Modell bislang noch nicht und unterstreicht den Bedarf an größeren, konditionsreichen Trainingsdatensätzen. Darüber hinaus habe ich eine automatisierte Bildanalyse-Pipeline für Hochdurchsatz-Yeast-Two-Hybrid-Systeme entwickelt. Klassische Algorithmen lokalisieren das Raster der 96-Well-Platten und ein weiteres CNN bewertet das Wachstum der Hefekolonien, sodass aus Tausenden von Kolonien quantitative Protein-Protein-Interaktionsnetzwerke entstehen. Die Integration dieser kuratierten Interaktionsdaten mit Graph-Convolutional-Modulen und Sequenzmerkmalen, die durch konventionelle Convolutions verarbeitet werden, bietet einen vielversprechenden Ansatz, die Genauigkeit der Proteinkonzentrationsvorhersage weiter zu steigern. Insgesamt zeigen diese Arbeiten, wie CNNs die Extraktion und Vorhersage zuverlässiger biologischer Informationen aus experimentellen Rohdaten ermöglichen. Dies fördert die systemische Modellierung der Genexpression und unterstützt das Hochskalieren von Anwendungen in der personalisierten Medizin und der Nutzpflanzenoptimierung.
Translational regulation Protein-to-mRNA ratio Convolutional neural networks Regression analysis Explainable AI
Schwehn, Patrick Maximilian
2026
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Schwehn, Patrick Maximilian (2026): Inferring protein from transcript abundances using convolutional neural networks. Dissertation, LMU München: Fakultät für Biologie
[thumbnail of Schwehn_Patrick_Maximilian.pdf]
Vorschau
PDF
Schwehn_Patrick_Maximilian.pdf

13MB

Abstract

Progress in personalized medicine and crop optimization hinges on quantitative, systems-level insights into how genotype and environment shape cellular phenotypes. Because proteins and their interactions underlie nearly all cellular functions, fluctuations in their concentrations strongly influence phenotypic outcomes. Yet protein measurements remain far more expensive than high-throughput mRNA assays, which are therefore often used as surrogates even though transcript and protein levels correlate only imperfectly. Recent advances in artificial intelligence offer a promising approach to reduce this inaccuracy. I therefore developed species-specific convolutional neural networks (CNNs) for Homo sapiens and Arabidopsis thaliana that predict protein abundances directly from paired transcript abundances and raw sequence data. Trained on matched transcriptome-proteome datasets, the models achieve coefficients of determination of 0.30 and 0.32, respectively. They improve accuracy for H. sapiens by about 40% over the best sequence-based approach and provide the first published model for A. thaliana. Analysis of the learned filter weights shows that the networks autonomously rediscover known regulatory motifs governing mRNA decay and translation while identifying several novel elements that merit experimental validation. An extended architecture that incorporates expression profiles of putative interaction partners does not yet surpass the sequence-only model, underscoring the need for larger, condition-rich training sets. I also developed an automated image-analysis pipeline for high-throughput yeast two-hybrid systems. Classical computer-vision algorithms locate 96-well plate grids, and a second CNN scores yeast colony growth, generating quantitative protein-protein interaction networks from thousands of colonies. Integrating these curated interaction data with graph-convolutional modules alongside sequence features processed by conventional convolutions offers a promising route to further improve the accuracy of protein abundance prediction. Collectively, these contributions demonstrate how CNNs can both extract and predict reliable biological information from raw experimental data, advancing systems-level modeling of gene expression and enabling scalable applications in personalized medicine and crop improvement.

Abstract

Fortschritte in der personalisierten Medizin und der Optimierung von Nutzpflanzen erfordern quantitative, systemische Einblicke, wie Genotyp und Umwelt zelluläre Phänotypen prägen. Da Proteine und ihre Interaktionen nahezu alle zellulären Funktionen bestimmen, führen Schwankungen ihrer Konzentrationen zu erheblichen Veränderungen der Phänotypen. Proteinmessungen sind jedoch deutlich kostspieliger als Hochdurchsatz-mRNA-Analysen, die daher häufig als Annäherung dienen, obwohl Transkript- und Proteinkonzentrationen nur teilweise korrelieren. Aktuelle Entwicklungen in der künstlichen Intelligenz bieten einen vielversprechenden Ansatz, diese Ungenauigkeit zu verringern. Daher habe ich für Homo sapiens und Arabidopsis thaliana speziesspezifische Convolutional Neural Networks (CNNs) entwickelt, die Protein- aus den zugehörigen Transkriptkonzentrationen und Rohsequenzdaten vorhersagen. Die auf gepaarten Transkriptom-Proteom-Datensätzen trainierten Modelle erreichen Bestimmtheitsmaße von 0,30 beziehungsweise 0,32. Damit steigern sie die Vorhersagegenauigkeit für H. sapiens um etwa 40 % gegenüber dem bislang besten sequenzbasierten Ansatz und stellen zugleich das erste veröffentlichte Modell für A. thaliana dar. Eine Analyse der gelernten Parameter zeigt, dass die Modelle eigenständig bekannte regulatorische Motive wiederentdecken, die den mRNA-Abbau und die Translation steuern, und mehrere bislang unbekannte Elemente identifizieren, die als Grundlage experimenteller Untersuchungen dienen können. Eine erweiterte Architektur, die Expressionsprofile potenzieller Interaktionspartner berücksichtigt, übertrifft das rein sequenzbasierte Modell bislang noch nicht und unterstreicht den Bedarf an größeren, konditionsreichen Trainingsdatensätzen. Darüber hinaus habe ich eine automatisierte Bildanalyse-Pipeline für Hochdurchsatz-Yeast-Two-Hybrid-Systeme entwickelt. Klassische Algorithmen lokalisieren das Raster der 96-Well-Platten und ein weiteres CNN bewertet das Wachstum der Hefekolonien, sodass aus Tausenden von Kolonien quantitative Protein-Protein-Interaktionsnetzwerke entstehen. Die Integration dieser kuratierten Interaktionsdaten mit Graph-Convolutional-Modulen und Sequenzmerkmalen, die durch konventionelle Convolutions verarbeitet werden, bietet einen vielversprechenden Ansatz, die Genauigkeit der Proteinkonzentrationsvorhersage weiter zu steigern. Insgesamt zeigen diese Arbeiten, wie CNNs die Extraktion und Vorhersage zuverlässiger biologischer Informationen aus experimentellen Rohdaten ermöglichen. Dies fördert die systemische Modellierung der Genexpression und unterstützt das Hochskalieren von Anwendungen in der personalisierten Medizin und der Nutzpflanzenoptimierung.