Dorigatti, Emilio (2024): Cancer immunotherapy design and analysis through discrete optimization, positive-unlabeled learning, and semi-structured regression models. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik |
Vorschau |
PDF
dorigatti_emilio.pdf 2MB |
Abstract
From ideation to market availability, developing new drugs and therapies can take more than a billion dollars and a decade of work. Clinical testing in human subjects is a particularly time-consuming phase of the development process, and nine out of ten clinical trials fail to demonstrate safety and/or efficacy of the treatments. This delays the introduction to the market by years, and makes the treatment more expensive for end consumers. The safety and efficacy of any given treatment is determined by characteristics of patients and diseases, but our limited ability to identify such factors inevitably leads to reduced success rates of clinical trials, because of overly broad categorization of diseases and patients. Cancer treatments in particular are plagued by low response rates, with therapies often failing to clear the tumor. The recent introduction of novel computational and experimental tools in clinical practice, mostly enabled by artificial intelligence techniques, led to the discovery of a large number of previously unknown biomarkers, i.e., chemical factors that differentiate sub-populations of patients and sub-types of diseases, leading to an improved understanding of the variables that drive the efficacy of therapies. At the same time, advances in experimental techniques generated an exponential increase in the amount of available data characterizing the molecular landscape of patients, making computational tools a necessity to recognize patterns and identify promising directions to develop new therapies, in an approach known as precision medicine. This thesis contributes to the precision medicine revolution by introducing an expert opinion paper about potential uses of artificial intelligence in this practice, novel computational tools to aid the development of cancer immunotherapies, and methodological advances to confront some challenges arising from the complex data modalities frequently found in this field. From an applied perspective, this thesis introduces two frameworks for cancer vaccine design based on discrete optimization, complemented by a benchmark of machine learning predictors that are used in conjunction with such frameworks. Then, recognizing the frequent absence of negative examples with which to train machine learning models for such biological problems, this thesis introduces two methods to learn from this type of data with a particular focus on imbalanced distributions. Finally, enabling practitioners to interpret the effect of tabular data such as clinical variables of a patient, modeled jointly with non-tabular data including radiology and histopathology images, this thesis presents a method to perform correct statistical inference in semi-structured regression models. One application of such models, predicting the spread of COVID-19 in Germany, highlights the advantage of such hybrid modeling.
Abstract
Von der Idee bis zur Marktreife kann die Entwicklung neuer Medikamente und Therapien mehr als eine Milliarde Dollar und ein Jahrzehnt Arbeit in Anspruch nehmen. Dabei stellen klinische Studien am Menschen eine besonders zeitaufwändige Phase des Entwicklungsprozesses dar, und in neun von zehn Fällen gelingt es nicht, die Sicherheit und/oder Wirksamkeit der Behandlungen nachzuweisen. Dadurch verzögert sich die Markteinführung um Jahre, und die Behandlung wird für die Endverbraucher teurer. Die Sicherheit und Wirksamkeit einer bestimmten Behandlung hängt von den Charakteristika der Patienten und Krankheiten ab. Aber unsere begrenzte Fähigkeit, solche Faktoren zu identifizieren, führt unweigerlich zu geringeren Erfolgsquoten bei klinischen Versuchen, weil Krankheiten und Patienten zu breit kategorisiert werden. Insbesondere Krebsbehandlungen haben mit niedrigen Ansprechraten zu kämpfen, da die Therapien den Tumor oft nicht beseitigen können. Die jüngste Einführung neuartiger computergestützter Instrumente in der klinischen Praxis, die größtenteils durch Techniken der künstlichen Intelligenz ermöglicht werden, führte zur Entdeckung einer großen Zahl bisher unbekannter Biomarker.Das sind Faktoren, die Subpopulationen von Patienten und Subtypen von Krankheiten unterscheiden, was zu einem besseren Verständnis der Variablen führt, die die Wirksamkeit von Therapien bestimmen. Gleichzeitig haben Fortschritte bei den experimentellen Techniken zu einem exponentiellen Anstieg der verfügbaren Datenmenge geführt, die die molekulare Landschaft der Patienten charakterisiert. Dies führt dazu, dass computergestützte Werkzeuge eine Notwendigkeit geworden sind, um Muster zu erkennen und vielversprechende Richtungen für die Entwicklung neuer Therapien zu identifizieren. Diese Arbeit leistet einen Beitrag zur Revolution der Präzisionsmedizin, indem sie ein Expertengutachten über den möglichen Einsatz künstlicher Intelligenz in dieser Praxis vorstellt. Dabei werden auch neuartige computergestützte Werkzeuge zur Unterstützung der Entwicklung von Krebsimmuntherapien und methodische Fortschritte zur Bewältigung einiger Herausforderungen beleuchtet, die sich aus den komplexen Datenmodalitäten ergeben, die in diesem Bereich häufig anzutreffen sind. Desweiteren, werden in der Arbeit aus einer angewandten Perspektive zwei Rahmenwerke für die Entwicklung von Krebsimpfstoffen vorgestellt, die auf diskreter Optimierung beruhen, ergänzt durch einen Benchmark von Prädiktoren für maschinelles Lernen, die in Verbindung mit solchen Rahmenwerken verwendet werden. Ferner, in Anbetracht des häufigen Fehlens von Negativbeispielen, mit denen maschinelle Lernmodelle für solche biologischen Probleme trainiert werden können, werden in dieser Arbeit zwei Methoden zum Lernen aus dieser Art von Daten mit besonderem Schwerpunkt auf unausgewogenen Verteilungen vorgestellt. Schließlich wird eine Methode zur korrekten statistischen Inferenz in semi-strukturierten Regressionsmodellen vorgestellt, die es Praktikern ermöglicht, die Auswirkungen von tabellarischen Daten wie klinischen Variablen eines Patienten zu interpretieren, die gemeinsam mit nicht-tabellarischen Daten wie radiologischen und histopathologischen Bildern modelliert werden. Eine Anwendung solcher Modelle, die Vorhersage der Ausbreitung von COVID-19 in Deutschland, verdeutlicht den Vorteil einer solchen hybriden Modellierung.
Dokumententyp: | Dissertationen (Dissertation, LMU München) |
---|---|
Themengebiete: | 000 Allgemeines, Informatik, Informationswissenschaft
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik 600 Technik, Medizin, angewandte Wissenschaften > 610 Medizin und Gesundheit |
Fakultäten: | Fakultät für Mathematik, Informatik und Statistik |
Sprache der Hochschulschrift: | Englisch |
Datum der mündlichen Prüfung: | 28. Mai 2024 |
1. Berichterstatter:in: | Bischl, Bernd |
MD5 Prüfsumme der PDF-Datei: | 3ce173e2b2d53fa3e75c3f4db6f449bf |
Signatur der gedruckten Ausgabe: | 0001/UMC 30723 |
ID Code: | 34147 |
Eingestellt am: | 10. Oct. 2024 10:46 |
Letzte Änderungen: | 17. Oct. 2024 12:38 |