Logo Logo
FAQ
Contact
Switch language to German
Designing and optimizing deep learning methods for genomic sequencing data
Designing and optimizing deep learning methods for genomic sequencing data
While modern deep learning techniques have significantly impacted fields such as natural language processing and computer vision, their application to biology still needs to be expanded. To bridge the gap between these fields, several deep learning approaches are proposed and tailored to genomics, based on recent advances in machine learning research and the characteristics of sequential genomic data. The main contributions of the dissertation aim at advancing several aspects of deep learning for sequential genomic data: self-supervised learning, uncertainty quantification, and automated model design or, more generally, optimization of architectures and hyperparameters. A challenge that this thesis aims to address is the effective use of unlabeled genomic data to improve model performance. In this context, self-supervised approaches for sequential genomic data are investigated. These methods improve performance especially when the amount of labeled data is limited and the acquisition of large amounts of annotated data is not feasible due to factors such as increased cost. A major contribution of the thesis, Self-GenomeNet, is a self-supervised learning method tailored for genomic data, using reverse-complement sequences within self-supervised learning. Another aspect explored in this thesis is the design and optimization of deep learning architectures and hyperparameters for genomics. While models such as ResNets or Visual Transformers are the standard architectures in computer vision and various transformer models such as BERT or GPT in natural language processing, there is still no consensus on a standard architecture in computational biology, a field with many different tasks and subfields. As a result, it can be difficult for researchers to train successful machine learning models in genomics using out-of-the-box architectures and hyperparameters. To address this problem, the first part of the thesis investigates automated model design methods. These methods optimize model architectures for the specific dataset and task. An important contribution of this work is a model-based optimization approach called GenomeNet-Architect, which simultaneously optimizes both the model architecture through proposed hyperparameters and the optimization hyperparameters. In another contribution of this thesis, various neural architecture search methods are optimized using our proposed search space and benchmarked against expert-designed architectures. Both papers suggest that automated architecture design methods find better models than those designed by experts. Other contributions of this thesis deal with uncertainty quantification methods applied to genomic data. Applications in health and biology are often safety-critical, so the reliability of deep learning models should be investigated and improved. To this end, various uncertainty quantification methods for predicting regulatory activity are investigated, and a novel deep learning method for improving the calibration of predictions is studied in the context of sequential genomic data. Finally, contributions are made to the development of user-friendly software that can handle different formats of genomic data, including the integration of key parts of several of the methods outlined in this thesis into this software., Obwohl moderne Deep-Learning-Techniken bereits einen großen Einfluss auf Bereiche wie die Verarbeitung natürlicher Sprache und maschinelle Bildverarbeitung haben, muss ihre Anwendung in der Biologie erst noch entwickelt werden. Um die Lücke zwischen diesen beiden Bereichen zu schließen, werden verschiedene Deep-Learning-Ansätze vorgeschlagen und auf die Genomik zugeschnitten, die auf den jüngsten Fortschritten in der maschinellen Lernforschung und den Eigenschaften sequenzieller Genomdaten basieren. Die Hauptbeiträge der Dissertation zielen darauf ab, verschiedene Aspekte des Deep Learning für sequenzielle Genomdaten voranzutreiben: selbstüberwachtes Lernen, Quantifizierung von Unsicherheiten und automatisiertes Modelldesign oder, allgemeiner, Optimierung von Architekturen und Hyperparametern. Eine Herausforderung, die in dieser Arbeit angegangen werden soll, ist die effektive Nutzung unmarkierter Genomdaten zur Verbesserung der Modellleistung. In diesem Zusammenhang werden selbstüberwachende Ansätze für sequenzielle Genomdaten untersucht. Diese Methoden verbessern die Leistung insbesondere dann, wenn die Menge an markierten Daten begrenzt ist und die Beschaffung großer Mengen annotierter Daten aus Kostengründen nicht möglich ist. Ein wichtiger Beitrag der Arbeit, Self-GenomeNet, ist eine selbstüberwachte Lernmethode, die auf genomische Daten zugeschnitten ist und revers-komplementäre Sequenzen innerhalb des selbstüberwachten Lernens verwendet. Ein weiterer Aspekt, der in dieser Arbeit untersucht wird, ist der Entwurf und die Optimierung von Deep-Learning-Architekturen und Hyperparametern für die Genomik. Während Modelle wie ResNets oder Visual Transformers Standardarchitekturen in der Computer Vision und verschiedene Transformatormodelle wie BERT oder GPT in der natürlichen Sprachverarbeitung sind, gibt es noch keinen Konsens über eine Standardarchitektur in der Computerbiologie, einem Gebiet mit vielen verschiedenen Aufgaben und Teilgebieten. Infolgedessen kann es für Forscher schwierig sein, erfolgreiche maschinelle Lernmodelle in der Genomik mit Standardarchitekturen und Hyperparametern zu trainieren. Um dieses Problem zu lösen, werden im ersten Teil der Arbeit Methoden zur automatischen Modellentwicklung untersucht. Diese Methoden optimieren Modellarchitekturen für den jeweiligen Datensatz und die jeweilige Aufgabenstellung. Ein wichtiger Beitrag dieser Arbeit ist ein modellbasierter Optimierungsansatz namens GenomeNet-Architect, der sowohl die Modellarchitektur durch vorgeschlagene Hyperparameter als auch die Optimierungshyperparameter gleichzeitig optimiert. In einem weiteren Beitrag dieser Arbeit werden verschiedene Suchmethoden für neuronale Architekturen, die den von uns vorgeschlagenen Suchraum nutzen, optimiert und mit von Experten entworfenen Architekturen verglichen. Beide Arbeiten deuten darauf hin, dass automatische Architekturentwurfsmethoden bessere Modelle finden als von Experten entworfene Modelle. Weitere Beiträge dieser Arbeit befassen sich mit Methoden zur Quantifizierung von Unsicherheiten, die auf genomische Daten angewendet werden. Anwendungen im Bereich Gesundheit und Biologie sind oft sicherheitskritisch, weshalb die Zuverlässigkeit von Deep-Learning-Modellen untersucht und verbessert werden sollte. Zu diesem Zweck werden verschiedene Methoden zur Quantifizierung von Unsicherheiten bei der Vorhersage regulatorischer Aktivitäten untersucht und eine neue Deep-Learning-Methode zur Verbesserung der Kalibrierung von Vorhersagen im Kontext sequenzieller Genomdaten erforscht. Schließlich wird ein Beitrag zur Entwicklung einer benutzerfreundlichen Software geleistet, die verschiedene Formate genomischer Daten verarbeiten kann, einschließlich der Integration wichtiger Teile mehrerer in dieser Arbeit vorgestellter Methoden in diese Software.
Not available
Gündüz, Hüseyin Anil
2025
English
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Gündüz, Hüseyin Anil (2025): Designing and optimizing deep learning methods for genomic sequencing data. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics
[thumbnail of Guenduez_Hueseyin_Anil.pdf]
Preview
PDF
Guenduez_Hueseyin_Anil.pdf

24MB

Abstract

While modern deep learning techniques have significantly impacted fields such as natural language processing and computer vision, their application to biology still needs to be expanded. To bridge the gap between these fields, several deep learning approaches are proposed and tailored to genomics, based on recent advances in machine learning research and the characteristics of sequential genomic data. The main contributions of the dissertation aim at advancing several aspects of deep learning for sequential genomic data: self-supervised learning, uncertainty quantification, and automated model design or, more generally, optimization of architectures and hyperparameters. A challenge that this thesis aims to address is the effective use of unlabeled genomic data to improve model performance. In this context, self-supervised approaches for sequential genomic data are investigated. These methods improve performance especially when the amount of labeled data is limited and the acquisition of large amounts of annotated data is not feasible due to factors such as increased cost. A major contribution of the thesis, Self-GenomeNet, is a self-supervised learning method tailored for genomic data, using reverse-complement sequences within self-supervised learning. Another aspect explored in this thesis is the design and optimization of deep learning architectures and hyperparameters for genomics. While models such as ResNets or Visual Transformers are the standard architectures in computer vision and various transformer models such as BERT or GPT in natural language processing, there is still no consensus on a standard architecture in computational biology, a field with many different tasks and subfields. As a result, it can be difficult for researchers to train successful machine learning models in genomics using out-of-the-box architectures and hyperparameters. To address this problem, the first part of the thesis investigates automated model design methods. These methods optimize model architectures for the specific dataset and task. An important contribution of this work is a model-based optimization approach called GenomeNet-Architect, which simultaneously optimizes both the model architecture through proposed hyperparameters and the optimization hyperparameters. In another contribution of this thesis, various neural architecture search methods are optimized using our proposed search space and benchmarked against expert-designed architectures. Both papers suggest that automated architecture design methods find better models than those designed by experts. Other contributions of this thesis deal with uncertainty quantification methods applied to genomic data. Applications in health and biology are often safety-critical, so the reliability of deep learning models should be investigated and improved. To this end, various uncertainty quantification methods for predicting regulatory activity are investigated, and a novel deep learning method for improving the calibration of predictions is studied in the context of sequential genomic data. Finally, contributions are made to the development of user-friendly software that can handle different formats of genomic data, including the integration of key parts of several of the methods outlined in this thesis into this software.

Abstract

Obwohl moderne Deep-Learning-Techniken bereits einen großen Einfluss auf Bereiche wie die Verarbeitung natürlicher Sprache und maschinelle Bildverarbeitung haben, muss ihre Anwendung in der Biologie erst noch entwickelt werden. Um die Lücke zwischen diesen beiden Bereichen zu schließen, werden verschiedene Deep-Learning-Ansätze vorgeschlagen und auf die Genomik zugeschnitten, die auf den jüngsten Fortschritten in der maschinellen Lernforschung und den Eigenschaften sequenzieller Genomdaten basieren. Die Hauptbeiträge der Dissertation zielen darauf ab, verschiedene Aspekte des Deep Learning für sequenzielle Genomdaten voranzutreiben: selbstüberwachtes Lernen, Quantifizierung von Unsicherheiten und automatisiertes Modelldesign oder, allgemeiner, Optimierung von Architekturen und Hyperparametern. Eine Herausforderung, die in dieser Arbeit angegangen werden soll, ist die effektive Nutzung unmarkierter Genomdaten zur Verbesserung der Modellleistung. In diesem Zusammenhang werden selbstüberwachende Ansätze für sequenzielle Genomdaten untersucht. Diese Methoden verbessern die Leistung insbesondere dann, wenn die Menge an markierten Daten begrenzt ist und die Beschaffung großer Mengen annotierter Daten aus Kostengründen nicht möglich ist. Ein wichtiger Beitrag der Arbeit, Self-GenomeNet, ist eine selbstüberwachte Lernmethode, die auf genomische Daten zugeschnitten ist und revers-komplementäre Sequenzen innerhalb des selbstüberwachten Lernens verwendet. Ein weiterer Aspekt, der in dieser Arbeit untersucht wird, ist der Entwurf und die Optimierung von Deep-Learning-Architekturen und Hyperparametern für die Genomik. Während Modelle wie ResNets oder Visual Transformers Standardarchitekturen in der Computer Vision und verschiedene Transformatormodelle wie BERT oder GPT in der natürlichen Sprachverarbeitung sind, gibt es noch keinen Konsens über eine Standardarchitektur in der Computerbiologie, einem Gebiet mit vielen verschiedenen Aufgaben und Teilgebieten. Infolgedessen kann es für Forscher schwierig sein, erfolgreiche maschinelle Lernmodelle in der Genomik mit Standardarchitekturen und Hyperparametern zu trainieren. Um dieses Problem zu lösen, werden im ersten Teil der Arbeit Methoden zur automatischen Modellentwicklung untersucht. Diese Methoden optimieren Modellarchitekturen für den jeweiligen Datensatz und die jeweilige Aufgabenstellung. Ein wichtiger Beitrag dieser Arbeit ist ein modellbasierter Optimierungsansatz namens GenomeNet-Architect, der sowohl die Modellarchitektur durch vorgeschlagene Hyperparameter als auch die Optimierungshyperparameter gleichzeitig optimiert. In einem weiteren Beitrag dieser Arbeit werden verschiedene Suchmethoden für neuronale Architekturen, die den von uns vorgeschlagenen Suchraum nutzen, optimiert und mit von Experten entworfenen Architekturen verglichen. Beide Arbeiten deuten darauf hin, dass automatische Architekturentwurfsmethoden bessere Modelle finden als von Experten entworfene Modelle. Weitere Beiträge dieser Arbeit befassen sich mit Methoden zur Quantifizierung von Unsicherheiten, die auf genomische Daten angewendet werden. Anwendungen im Bereich Gesundheit und Biologie sind oft sicherheitskritisch, weshalb die Zuverlässigkeit von Deep-Learning-Modellen untersucht und verbessert werden sollte. Zu diesem Zweck werden verschiedene Methoden zur Quantifizierung von Unsicherheiten bei der Vorhersage regulatorischer Aktivitäten untersucht und eine neue Deep-Learning-Methode zur Verbesserung der Kalibrierung von Vorhersagen im Kontext sequenzieller Genomdaten erforscht. Schließlich wird ein Beitrag zur Entwicklung einer benutzerfreundlichen Software geleistet, die verschiedene Formate genomischer Daten verarbeiten kann, einschließlich der Integration wichtiger Teile mehrerer in dieser Arbeit vorgestellter Methoden in diese Software.