Wesp, Philipp (2024): Application of machine learning in CT colonography and radiological age assessment: enhancing traditional diagnostics in radiology. Dissertation, LMU München: Medizinische Fakultät |
Vorschau |
Lizenz: Creative Commons: Namensnennung-Nicht-kommerziell 4.0 (CC-BY-NC)
Wesp_Philipp.pdf 11MB |
Abstract
Machine learning has the potential to overcome challenges in radiology where traditional diagnostic methods reach their limits. This work addresses two such challenging clinical problems from two areas of radiology using different machine learning approaches. First, differentiating premalignant from benign colorectal polyps in computed tomography (CT) colonography. Second, continuous age predictions for radiological age assessment based on clavicle ossification in CT. The first clinical problem regards the differentiation of colorectal polyps to prevent colorectal cancer, which is among the three leading causes of cancer-related death in industrialized countries. CT colonography is a non-invasive screening method for colorectal cancer that can reliably detect polyps. However, it cannot distinctively differentiate benign polyps from premalignant ones that can turn into cancer. This work aims to enable this differentiation of colorectal polyps using machine learning. A training dataset was acquired in a secondary analysis of a previous prospective trial. First, colorectal polyps of all size categories and morphologies were manually segmented in CT colonography scans and polyps were classified as benign (hyperplastic polyp or regular mucosa) or premalignant (adenoma) according to the histopathologic reference standard. The assembled training dataset consisted of 107 colorectal polyps in 63 patients and 169 manual polyp segmentation masks in CT colonography scans. Next, radiomic image features characterizing shape (n = 14), gray level histogram statistics (n = 18), and image texture (n = 68) were calculated from the segmented polyps after applying 22 image filters, resulting in 1906 feature- filter combinations. Based on these features, a random forest classification model was trained on the training set to predict the polyp character. Model performance was validated in an external test dataset from a large North American multicenter CT colonography screening trial that has been made publicly accessible via The Cancer Imaging Archive. The test dataset consisted of 77 polyps in 59 patients and 118 manual polyp segmentation masks. Random forest predictions for polyp class in the external test dataset had an area un- der the receiver operating characteristic curve (ROC-AUC) of 0.91, 82 % sensitivity, and 85% specificity. These results demonstrate that machine learning enables the non-invasive differentiation of benign and premalignant colorectal polyps with CT colonography. Consequently, this allows for individual risk stratification and therapy guidance through a more precise selection of patients who would benefit from endoscopic polypectomy. However, the radiomics approach is impracticable for integration into everyday clinical workflows, because the manual polyp segmentation is time-consuming, expensive, and has high inter-reader variability. Therefore, two convolutional neuronal network (CNN) ensembles, SEG and noSEG, were trained on 3D CT colonography image subvolumes from the same training set to predict the polyp class. Model SEG was additionally trained with polyp segmentation masks. Diagnostic performance was validated in the same external multicentre test dataset. Additionally, predictions were analyzed with the gradient-based CNN visualization technique Grad-CAM++. Model SEG achieved a ROC-AUC of 0.83 and 80 % sensitivity at 69 % specificity for differentiating premalignant from benign polyps. Model noSEG yielded a ROC-AUC of 0.75, 80 % sensitivity at 44 % specificity, and an average Grad-CAM++ heatmap score of ≥ 0.25 in 90% of polyp tissue. These results show that deep learning also enables differentiating premalignant from benign colorectal polyps found in CT colonography scans when no segmentation mask is provided. The deep learning model noSEG learned to focus on polyp tissue for predictions without the need for prior polyp segmentation by experts. Thus, deep learning provides the basis for a fully automated CT colonography evaluation, as CNN polyp classification could be combined with already established computer-aided detection algorithms for polyp detection. The second clinical problem regards radiological age assessment, a method for assessing a person’s chronological age when the age is unknown or in serious doubt. One particular assessment approach is to examine the ossification status of the me- dial clavicular epiphyseal cartilages in dedicated CT scans. Next, the ossification is compared to the skeletal maturation of case groups from a reference study with known age. The inherent problem with that approach is the limited number of ossification stages that can be assessed with the human eye, which leads to a small set of discrete age estimates that can be assigned to a person. Consequently, the accuracy of these estimates is limited. To address this issue, this work investigates enabling continuous age prediction through a deep learning model that maps a thoracic CT scan to chronological age. Training a deep learning model to solve this task on a full CT scan is challenging and requires extremely large datasets and computing resources. To lower the complexity and reduce the required resources, the first goal was to crop thoracic CT scans around the relevant structure of interest (SOI), the sternoclavicular joints. This SOI serves as an easy-to-identify proxy for the medial clavicular epiphyseal cartilages. To this end, an instance of the object detection network RetinaNet was trained to automatically locate the SOI in CT scans. This is crucial as manual SOI localization by experts would pose a bottleneck for creating the necessary large dataset required to train the deep learning model, even when cropped around the relevant structures. Therefore, CT slices containing the SOI were manually annotated with bounding boxes around the SOI. The training dataset contained 29,656 slices from 100 CT scans of 82 different patients. The test dataset included 30,846 slices from 110 CT scans of 110 different patients. All slices in the training set were used to train the RetinaNet. Afterwards, the network was applied individually to all slices of the test dataset for SOI detection. The bounding box and slice position of the detection with the highest classification score was used as the location estimate for the SOI inside the CT scan. The deep learning-based location estimate for the SOI was in a correct slice in 97/110 (88 %), misplaced by one slice in 5/110 (5 %), and not available in 8/110 (7 %) test scans. Also, no location estimate was misplaced by more than one slice. These results demonstrate an automated approach for annotating the medial clavicular epiphyseal cartilages, which allows creating large training and test datasets for the development of a deep learning model for radiological age assessment. Building on the automated detection approach, a deep learning model for radiological age assessment was developed. Therefore, thoracic CT scans were retrospectively collected from the LMU University Hospital’s picture archiving and communication system. Individuals aged 15.0 to 30.0 years examined in routine clinical practice were included. All scans were automatically cropped around the medial clavicular epiphyseal cartilages using the previously trained RetinaNet. The trainig dataset contained 4,400 scans of 1,935 patients and the test dataset 300 scans of 300 patients with a balanced age and sex distribution. An adaption of the popular neural network ResNet was trained to predict a person’s chronological age based on these scans. In order to evaluate model performance, this work introduces an optimistic human reader performance estimate for an established reference study method for radiological age assessment. The mean absolute error (MAE) of deep learning model predictions for chronological age was 1.65 years, and the highest observed absolute error was 6.40 years for females and 7.32 years for males. However, performance in these high-error cases could be attributed to norm-variants or pathologic disorders. The mean absolute error (MAE) of the human reader estimate was 1.84 years and the highest calculated absolute error was 3.40 years for females and 3.78 years for males. These results demonstrate that the developed deep learning approach for continuous age prediction on CT volumes showing the clavicles outperforms the human reader estimate on average. In summary, this work demonstrates proof-of-concept machine learning approaches that address two clinical problems in radiology: colorectal cancer screening with CT colonography and radiological age assessment based on clavicle ossification in CT. The approaches successfully solved challenging problems that are otherwise difficult to overcome for conventional imaging diagnostics.
Abstract
Maschinelles Lernen hat das Potenzial Herausforderungen in der Radiologie zu bewältigen bei denen herkömmliche Diagnosemethoden an ihre Grenzen stoßen. Diese Arbeit behandelt zwei anspruchsvolle klinische Probleme aus zwei Bereichen der Radiologie unter Verwendung verschiedener Ansätze des maschinellen Lernens. Erstens, die Unterscheidung zwischen prämalignen und benignen kolorektalen Polypen in der Computertomographie (CT) Kolonographie. Zweitens, kontinuierliche Altersvorhersagen für die radiologische Altersbestimmung auf Grundlage der Verknöcherung des Schlüsselbeins in der CT. Das erste klinische Problem ist die Unterscheidung kolorektaler Polypen im Rahmen der Darmkrebsvorsorge. Darmkrebs zählt in Industrieländern zu den drei häufigsten krebsbedingten Todesursachen. Die CT-Kolonographie ist eine nicht-invasive Methode zur Früherkennung von Darmkrebs, mit der Polypen zuverlässig erkannt werden können. Damit lässt sich jedoch nicht eindeutig zwischen gutartigen Polypen und prämalignen Polypen, welche sich zu Krebs entwickeln können, unterscheiden. Diese Arbeit hat das Ziel diese Unterscheidung von kolorektalen Polypen durch maschinelles Lernen zu ermöglichen. Ein Trainingsdatensatz wurde im Rahmen einer Sekundäranalyse einer früheren prospektiven Studie angefertigt. Zunächst wurden kolorektale Polypen aller Größenkategorien und Morphologien in CT-Kolonographie-Scans manuell segmentiert und die Polypen gemäß dem histopathologischen Referenzstandard als gutartig (hyperplastischer Polyp oder normale Mukosa) oder prämaligne (Adenom) klassifiziert. Der Trainingsdatensatz bestand aus 107 kolorektalen Polypen von 63 Patienten und 169 manuellen Polypen-Segmentierungsmasken in CT-Kolonographie-Scans. Aus den segmentierten Polypen wurden nach Anwendung von 22 Bildfiltern radiologische Bildmerkmale berechnet, die Form (n = 14), Graustufenhistogramm-Statistik (n = 18) und Bildtextur (n = 68) charakterisieren, was insgesamt 1906 Merkmals-Filter- Kombinationen ergab. Auf Grundlage dieser Merkmale wurde ein Random-Forest- Klassifizierungsmodell auf dem Trainingssatz trainiert, um den Polypencharakter vorherzusagen. Die Unterscheidungsfähigkeit des Modells wurde anhand eines externen Testdatensatzes aus einer großen nordamerikanischen multizentrischen CT- Kolonographie-Screeningstudie validiert, die über das Cancer Imaging Archive öffentlich zugänglich gemacht wurde. Der Testdatensatz bestand aus 77 Polypen von 59 Patienten und 118 manuellen Polypensegmentierungsmasken. Die Random-Forest-Vorhersagen für die Polypenklasse im externen Testdatensatz hatten eine Fläche unter der Receiver Operating Characteristic Curve (ROC-AUC) von 0,91, eine Sensitivität von 82% und eine Spezifität von 85%. Diese Ergebnisse zeigen, dass maschinelles Lernen die nicht-invasive Differenzierung von benignen und prämalignen kolorektalen Polypen mit der CT-Kolonographie ermöglicht. Eine genauere Auswahl von Patienten die von einer endoskopischen Polypektomie profitieren würden, ermöglicht eine individuelle Risikostratifizierung und Therapieführung. Der Radiomics-Ansatz ist für die Integration in den klinischen Alltag jedoch nicht praktikabel, da die manuelle Polypensegmentierung zeitaufwändig und teuer ist und eine hohe Variabilität zwischen den radiologischen Leserinnen und Lesern aufweist. Daher wurden zwei Ensembles von Convolutional Neural Networks (CNN), SEG und noSEG, auf 3D-CT-Kolonographie-Subvolumina aus demselben Trainingssatz trainiert, um die Polypenklasse vorherzusagen. Das Modell SEG wurde zusätzlich mit Polypen-Segmentierungsmasken trainiert. Die Fähigkeit korrekte Diagnosen zu erstellen wurde mit demselben externen multizentrischen Testdatensatz validiert. Zusätzlich wurden die Vorhersagen mit der gradientenbasierten CNN-Visualisierungstechnik Grad-CAM++ analysiert. Das Modell SEG erreichte eine ROC-AUC von 0,83 und 80% Sensitivität bei 69% Spezifität für die Unterscheidung zwischen prämalignen und benignen Polypen. Das Modell noSEG lieferte eine ROC-AUC von 0,75, 80 % Sensitivität bei 44 % Spezifität und einen durchschnittlichen Grad-CAM++ Heatmap-Wert von ≥ 0,25 bei 90 % des Polypengewebes. Diese Ergebnisse zeigen, dass Deep Learning auch dann eine Unterscheidung zwischen prämalignen und benignen kolorektalen Polypen ermöglicht, wenn keine Segmentierungsmaske vorhanden ist. Das Deep-Learning-Modell noSEG hat gelernt, sich für Vorhersagen auf Polypengewebe zu konzentrieren, ohne dass eine vorherige Segmentierung der Polypen durch Experten erforderlich ist. Deep Learning bietet somit die Grundlage für eine vollautomatische CT-Kolonographie-Auswertung, da die CNN-Polypenklassifizierung mit bereits etablierten computergestützten Algorithmen zur Polypenerkennung kombiniert werden könnte. Das zweite klinische Problem betrifft die radiologische Altersbestimmung, eine Methode zur Schätzung des chronologischen Alters einer Person, wenn das Alter unbekannt ist oder ernsthaft angezweifelt wird. Eine bestimmte Schätzungsmethode ist die Untersuchung des Verknöcherungsstatus der Epiphysenknorpel des mittleren Schlüsselbeins in CT-Scans. Die Verknöcherung wird kategorisiert und anschließend mit der Skelettreifung von Fallgruppen aus einer Referenzstudie mit bekanntem Alter verglichen. Das inhärente Problem bei diesem Ansatz ist die begrenzte Anzahl von Verknöcherungsstadien, die mit dem menschlichen Auge beurteilt werden können, was zu einer kleinen Anzahl von diskreten Altersschätzungen führt, die einer Person zugeordnet werden können. Folglich ist die Genauigkeit dieser Schätzungen begrenzt. Daher wird in dieser Arbeit die Möglichkeit einer kontinuierlichen Alters- vorhersage durch ein Deep-Learning-Modell untersucht, das einen Thorax-CT-Scan auf das chronologische Alter abbildet. Das Training eines Deep-Learning-Modells zur kontinuierlichen Altersvorhersage auf einem vollständigen CT-Scan ist eine Herausforderung und erfordert extrem große Datensätze und Rechenressourcen. Um die Komplexität der Problemstellung zu verringern und die erforderlichen Ressourcen zu reduzieren, bestand das erste Ziel darin, Thorax-CT-Scans um die relevante Struktur von Interesse (SOI), die Sternoklavikulargelenke, herum auszuschneiden. Diese SOI dient als einfach zu identifizierende Stellvertreterregion für die Epiphysenknorpel des medialen Schlüsselbeins. Zu diesem Zweck wurde eine Instanz des Objekterkennungsnetzes RetinaNet darauf trainiert, die SOI in CT-Scans automatisch zu lokalisieren. Dieser Schritt ist von entscheidender Bedeutung, da die manuelle Lokalisierung der SOI durch Experten einen Engpass für die Erstellung des erforderlichen großen Datensatzes darstellen würde, der für das Training eines Deep-Learning-Modells benötigt wird, selbst wenn die relevanten Strukturen ausgeschnitten werden. Daher wurden die CT-Schichten, die die SOI enthielten, manuell mit quadratischen Kästchen um die SOI herum markiert. Der Trainingsdatensatz enthielt 29.656 Schichten aus 100 CT-Scans von 82 verschiedenen Patienten. Der Testdatensatz umfasste 30.846 Schichten von 110 CT-Scans von 110 verschiedenen Patienten. Alle Schichten des Trainingsdatensatzes wurden für das Training des RetinaNet verwendet. Anschließend wurde das Netzwerk einzeln auf allen Schichten des Testdatensatzes zur SOI-Erkennung angewendet. Das Kästchen und die Schichtposition der Erkennung mit der höchsten Klassifizierungspunktzahl wurden als Schätzung für die Position der SOI innerhalb des CT-Scans verwendet. Die auf Deep Learning basierende Positionsschätzung für die SOI befand sich in 97/110 (88 %) in einer korrekten Schicht, war in 5/110 (5 %) eine Schicht daneben und in 8/110 (7%) Testscans nicht verfügbar. Außerdem war keine Positionsschätzung um mehr als eine Schicht verschoben. Diese Ergebnisse zeigen einen automatisierten Ansatz für die Lokalisierung der medialen klavikulären Epiphysenknorpel, welcher die Erstellung großer Trainings- und Testdatensätze für die Entwicklung eines Deep- Learning-Modells zur radiologischen Altersbestimmung ermöglicht. Aufbauend auf dem automatischen Erkennungsansatz wurde ein Deep-Learning- Modell für die radiologische Altersbestimmung entwickelt. Dazu wurden Thorax-CT- Aufnahmen retrospektiv aus dem Bildarchivierungs- und Kommunikationssystem des Universitätsklinikums der LMU gesammelt. Eingeschlossen wurden Personen im Alter von 15,0 bis 30,0 Jahren, die in der klinischen Routinepraxis untersucht wurden. Alle Scans wurden mit Hilfe des zuvor trainierten RetinaNet automatisch um die medialen Epiphysenknorpel des Schlüsselbeins augeschnitten. Der Trainingsdatensatz enthielt 4.400 Scans von 1.935 Patienten und der Testdatensatz 300 Scans von 300 Patienten mit einer ausgewogenen Alters- und Geschlechtsverteilung. Eine angepasste Version des bekannten neuronalen Netzes ResNet wurde trainiert, um das chronologische Alter einer Person auf der Grundlage dieser Scans vorherzusagen. Um die Genaugikeit des Modells besser bewerten zu können, wird in dieser Arbeit eine optimistische Schätzung der Genauigkeit einer etablierte Referenzstudienmethode zur radiologischen Altersbestimmung von menschlichen radiologischen Leserinnen und Lesern eingeführt. Der mittlere absolute Fehler (MAE) der Vorhersagen des Deep-Learning-Modells für das chronologische Alter betrug 1,65 Jahre, und der höchste beobachtete absolute Fehler lag bei 6,40 Jahren für Frauen und 7,32 Jahren für Männer. Die Ungenauigkeit in diesen Fällen mit hohem Fehler konnte jedoch auf Norm-Varianten oder pathologische Störungen zurückgeführt werden. Der mittlere absolute Fehler (MAE) der Schätzung der menschlichen Leserinnen und Leser betrug 1,84 Jahre, und der höchste berechnete absolute Fehler lag bei 3,40 Jahren für Frauen und 3,78 Jahren für Männer. Diese Ergebnisse zeigen, dass der entwickelte Deep-Learning-Ansatz für die kontinuierliche Altersvorhersage auf CT-Volumina der Klavikula die Genauigkeit der Altersschätzung der menschlichen Leserinnen und Leser im Durchschnitt übertrifft. Zusammenfassend zeigt diese Arbeit verschiedene Machbarkeitsnachweise für maschinelles Lernen, die sich mit zwei klinischen Problemen in der Radiologie befassen: Darmkrebs-Screening mit CT-Kolonographie und radiologische Altersbestimmung auf der Grundlage der Verknöcherung des Schlüsselbeins in der CT. Die Ansätze lösten erfolgreich anspruchsvolle Probleme, die bei der konventionellen bildgebenden Diagnostik sonst nur schwer zu bewältigen sind.
Dokumententyp: | Dissertationen (Dissertation, LMU München) |
---|---|
Keywords: | Machine Learning, Deep Learning, Radiology, CT Colonography |
Themengebiete: | 600 Technik, Medizin, angewandte Wissenschaften
600 Technik, Medizin, angewandte Wissenschaften > 610 Medizin und Gesundheit |
Fakultäten: | Medizinische Fakultät |
Sprache der Hochschulschrift: | Englisch |
Datum der mündlichen Prüfung: | 4. März 2024 |
1. Berichterstatter:in: | Ingrisch, Michael |
MD5 Prüfsumme der PDF-Datei: | 83839cc7ce21aef44a8d47ba1c69ac90 |
Signatur der gedruckten Ausgabe: | 0700/UMD 21664 |
ID Code: | 33297 |
Eingestellt am: | 26. Mar. 2024 13:33 |
Letzte Änderungen: | 26. Mar. 2024 13:33 |