Logo Logo
Hilfe
Kontakt
Switch language to English
Reducing the effort for data annotation. contributions to weakly supervised deep learning
Reducing the effort for data annotation. contributions to weakly supervised deep learning
The rise and success of modern supervised machine and deep learning models, which have become parts of our everyday lives, are partially fueled by the increasing availability of large datasets with high-quality annotations. However, the availability of such annotations, also referred to as labels, remains a critical bottleneck for many machine learning applications as they are a prerequisite for supervised model training. This is particularly evident in domains where the data annotation process is ambiguous and cumbersome or where it requires the knowledge of scarce domain experts. In application domains such as medical imaging or industrial manufacturing, this often leads to the situation where, despite the availability of a large amount of non-annotated data, only a fraction of this data is annotated with appropriate labels. This problem of model training with limited labeled data is the focus of this thesis which covers methods to leverage unlabeled data, samples without annotation, and weakly labeled data, samples with a low-information annotation, for model training. Concretely, it includes contributions to the areas of semi-supervised learning, positive unlabeled learning, constrained clustering, and transfer learning. First, this thesis introduces the concept of deep semi-supervised learning and provides an overview of recent research on self-training, entropy regularization, consistency regularization, and hybrid approaches. The goal of semi-supervised learning is to train machine learning models on a small dataset of annotated training data while simultaneously using a larger dataset of completely unlabeled data. Since the main developments in this area are driven by the computer vision community, many of these methods have been developed mainly for image data. This motivated one contribution to investigate their application in a time series classification scenario. Another contribution investigates the applicability of semi-supervised learning in a medical imaging context to reduce the data annotation effort in this domain. Positive unlabeled learning is another exciting sub-field of low-supervised learning. Here, the training data contains only positive or unlabeled samples, while the goal is to learn a binary classifier that can distinguish unseen positive and negative samples. Despite the absence of negative samples during model training, recent positive unlabeled learning methods that use weighted loss functions enable successful model training in this challenging data regime. One contribution to this topic presents a framework that uses explicit estimates of predictive uncertainty to enable self-training in such positive unlabeled settings. The next section introduces the concept of weakly supervised learning with pairwise binary constraint annotations for constrained clustering. One contribution in this area proposes a method that combines it with concepts from semi-supervised learning to train these models in a semi-constrained manner. This allows the use of large amounts of completely unlabeled data to guide model training on a smaller dataset with pairwise binary constraint annotations. Another contribution in this area leverages the cluster detection capabilities of these models to recognize dynamically changing categories. The final section includes a description of transfer learning approaches as well as an application of transfer learning with learning tasks of varying granularity in a medical context., Der Erfolg moderner überwachter Machine- und Deep-Learning-Modelle, die mittlerweile Teil unseres Alltags geworden sind, fußt teilweise auf der zunehmenden Verfügbarkeit großer Datensätze mit hochwertigen Annotationen. Die Verfügbarkeit solcher Annotationen, auch als Labels bezeichnet, bleibt jedoch ein kritisches Bottleneck für viele Anwendungen, da sie eine Voraussetzung für das Training von überwachten Modellen darstellen. Dies ist insbesondere in Domänen ein Problem, in welchen der Prozess der Datenannotation unklar und aufwändig ist oder das Wissen von Fachexperten erfordert. In Anwendungsbereichen wie der medizinischen Bildgebung oder der industriellen Fertigung führt dies oft dazu, dass trotz der Verfügbarkeit einer großen Menge nicht annotierter Daten nur ein Bruchteil dieser Daten mit geeigneten Labels versehen werden kann. Das Modelltraining mit begrenzt annotierten Daten ist der Fokus dieser Arbeit, welche Methoden behandelt, um auch nicht annotierte Daten und schwach annotierte Daten, deren Annotationen geringen Informationsgehalt besitzen, für das Modelltraining zu nutzen. Die vorliegende Arbeit enthält Beiträge zu Semi-supervised Learning, Positive-unlabeled Learning, Constrained Clustering und Transfer Learning. Zu Beginn wird das Konzept des Semi-supervised Learning vorgestellt und es wird ein Überblick über die aktuelle Forschung zu Self-Training, Entropy-Regularisation, Consistency-Regularisation und hybriden Ansätzen gegeben. Das Ziel von Semi-supervised Learning besteht darin, Modelle auf einem kleinen Datensatz mit annotierten Trainingsdaten zu trainieren, wobei zusätzlich ein größerer Datensatz von nicht annotierten Daten in das Modelltraining mit einbezogen wird. Da die wichtigsten Entwicklungen in diesem Bereich aus dem Bereich Computer Vision getrieben werden, wurden viele dieser Methoden hauptsächlich für Bilddaten entwickelt. Dies motivierte einen Beitrag zur Untersuchung ihrer Anwendung in einem Szenario zur Klassifizierung von Zeitreihen. Ein weiterer Beitrag untersucht die Anwendbarkeit von Semi-supervised Learning in einem medizinischen Bildgebungskontext, um den Aufwand für die Datenannotation zu reduzieren. Positive Unlabeled Learning ist ein weiteres Teilgebiet von Semi-supervised Learning. Dabei enthält der Trainingsdatensatz nur positive oder nicht annotierte Datenpunkte, während das Ziel darin besteht, einen binären Klassifikator zu lernen, der zwischen positiven und negativen Datenpunkten unterscheiden kann. Trotz des Fehlens annotierter negativer Datenpunkte während des Modelltrainings ermöglichen Positive Unlabeled Learning Methoden ein erfolgreiches Modelltraining in dieser schwierigen Datensituation. Ein Beitrag zu diesem Thema stellt ein Framework vor, welches explizite Schätzungen der Vorhersageunsicherheit verwendet, um Self-Training in solch einem Kontext zu ermöglichen. Ein weiterer Abschnitt stellt das Konzept des Weakly-supervised Learning mit paarweisen binären Constraint Annotationen für Constrained Clustering vor. Ein Beitrag in diesem Bereich schlägt eine Methode vor, die Constrained Clustering mit Konzepten aus dem Semi-supervised Learning kombiniert, um auch nicht annotierte Daten für das Training dieser Modelle zu verwenden. Dies ermöglicht die Verwendung großer Mengen nicht-annotierter Daten, um das Modelltraining auf einem kleineren Datensatz mit paarweisen binären Constraint Annotationen zu verbessern. Ein weiterer Beitrag in diesem Bereich nutzt die Fähigkeiten dieser Modelle zur Clustererkennung, um dynamisch wechselnde Kategorien in den Daten zu erkennen. Schließlich enthält ein weiterer Abschnitt eine Beschreibung von Transfer Learning-Ansätzen sowie eine Anwendung von Transfer Learning mit Machine Learning-Problemen unterschiedlicher Granularität in einem medizinischen Kontext.
Not available
Goschenhofer, Jann
2023
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Goschenhofer, Jann (2023): Reducing the effort for data annotation: contributions to weakly supervised deep learning. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of goschenhofer_jann.pdf]
Vorschau
Lizenz: Creative Commons: Namensnennung-Weitergabe unter gleichen Bedingungen 4.0 (CC-BY-SA)
PDF
goschenhofer_jann.pdf

17MB

Abstract

The rise and success of modern supervised machine and deep learning models, which have become parts of our everyday lives, are partially fueled by the increasing availability of large datasets with high-quality annotations. However, the availability of such annotations, also referred to as labels, remains a critical bottleneck for many machine learning applications as they are a prerequisite for supervised model training. This is particularly evident in domains where the data annotation process is ambiguous and cumbersome or where it requires the knowledge of scarce domain experts. In application domains such as medical imaging or industrial manufacturing, this often leads to the situation where, despite the availability of a large amount of non-annotated data, only a fraction of this data is annotated with appropriate labels. This problem of model training with limited labeled data is the focus of this thesis which covers methods to leverage unlabeled data, samples without annotation, and weakly labeled data, samples with a low-information annotation, for model training. Concretely, it includes contributions to the areas of semi-supervised learning, positive unlabeled learning, constrained clustering, and transfer learning. First, this thesis introduces the concept of deep semi-supervised learning and provides an overview of recent research on self-training, entropy regularization, consistency regularization, and hybrid approaches. The goal of semi-supervised learning is to train machine learning models on a small dataset of annotated training data while simultaneously using a larger dataset of completely unlabeled data. Since the main developments in this area are driven by the computer vision community, many of these methods have been developed mainly for image data. This motivated one contribution to investigate their application in a time series classification scenario. Another contribution investigates the applicability of semi-supervised learning in a medical imaging context to reduce the data annotation effort in this domain. Positive unlabeled learning is another exciting sub-field of low-supervised learning. Here, the training data contains only positive or unlabeled samples, while the goal is to learn a binary classifier that can distinguish unseen positive and negative samples. Despite the absence of negative samples during model training, recent positive unlabeled learning methods that use weighted loss functions enable successful model training in this challenging data regime. One contribution to this topic presents a framework that uses explicit estimates of predictive uncertainty to enable self-training in such positive unlabeled settings. The next section introduces the concept of weakly supervised learning with pairwise binary constraint annotations for constrained clustering. One contribution in this area proposes a method that combines it with concepts from semi-supervised learning to train these models in a semi-constrained manner. This allows the use of large amounts of completely unlabeled data to guide model training on a smaller dataset with pairwise binary constraint annotations. Another contribution in this area leverages the cluster detection capabilities of these models to recognize dynamically changing categories. The final section includes a description of transfer learning approaches as well as an application of transfer learning with learning tasks of varying granularity in a medical context.

Abstract

Der Erfolg moderner überwachter Machine- und Deep-Learning-Modelle, die mittlerweile Teil unseres Alltags geworden sind, fußt teilweise auf der zunehmenden Verfügbarkeit großer Datensätze mit hochwertigen Annotationen. Die Verfügbarkeit solcher Annotationen, auch als Labels bezeichnet, bleibt jedoch ein kritisches Bottleneck für viele Anwendungen, da sie eine Voraussetzung für das Training von überwachten Modellen darstellen. Dies ist insbesondere in Domänen ein Problem, in welchen der Prozess der Datenannotation unklar und aufwändig ist oder das Wissen von Fachexperten erfordert. In Anwendungsbereichen wie der medizinischen Bildgebung oder der industriellen Fertigung führt dies oft dazu, dass trotz der Verfügbarkeit einer großen Menge nicht annotierter Daten nur ein Bruchteil dieser Daten mit geeigneten Labels versehen werden kann. Das Modelltraining mit begrenzt annotierten Daten ist der Fokus dieser Arbeit, welche Methoden behandelt, um auch nicht annotierte Daten und schwach annotierte Daten, deren Annotationen geringen Informationsgehalt besitzen, für das Modelltraining zu nutzen. Die vorliegende Arbeit enthält Beiträge zu Semi-supervised Learning, Positive-unlabeled Learning, Constrained Clustering und Transfer Learning. Zu Beginn wird das Konzept des Semi-supervised Learning vorgestellt und es wird ein Überblick über die aktuelle Forschung zu Self-Training, Entropy-Regularisation, Consistency-Regularisation und hybriden Ansätzen gegeben. Das Ziel von Semi-supervised Learning besteht darin, Modelle auf einem kleinen Datensatz mit annotierten Trainingsdaten zu trainieren, wobei zusätzlich ein größerer Datensatz von nicht annotierten Daten in das Modelltraining mit einbezogen wird. Da die wichtigsten Entwicklungen in diesem Bereich aus dem Bereich Computer Vision getrieben werden, wurden viele dieser Methoden hauptsächlich für Bilddaten entwickelt. Dies motivierte einen Beitrag zur Untersuchung ihrer Anwendung in einem Szenario zur Klassifizierung von Zeitreihen. Ein weiterer Beitrag untersucht die Anwendbarkeit von Semi-supervised Learning in einem medizinischen Bildgebungskontext, um den Aufwand für die Datenannotation zu reduzieren. Positive Unlabeled Learning ist ein weiteres Teilgebiet von Semi-supervised Learning. Dabei enthält der Trainingsdatensatz nur positive oder nicht annotierte Datenpunkte, während das Ziel darin besteht, einen binären Klassifikator zu lernen, der zwischen positiven und negativen Datenpunkten unterscheiden kann. Trotz des Fehlens annotierter negativer Datenpunkte während des Modelltrainings ermöglichen Positive Unlabeled Learning Methoden ein erfolgreiches Modelltraining in dieser schwierigen Datensituation. Ein Beitrag zu diesem Thema stellt ein Framework vor, welches explizite Schätzungen der Vorhersageunsicherheit verwendet, um Self-Training in solch einem Kontext zu ermöglichen. Ein weiterer Abschnitt stellt das Konzept des Weakly-supervised Learning mit paarweisen binären Constraint Annotationen für Constrained Clustering vor. Ein Beitrag in diesem Bereich schlägt eine Methode vor, die Constrained Clustering mit Konzepten aus dem Semi-supervised Learning kombiniert, um auch nicht annotierte Daten für das Training dieser Modelle zu verwenden. Dies ermöglicht die Verwendung großer Mengen nicht-annotierter Daten, um das Modelltraining auf einem kleineren Datensatz mit paarweisen binären Constraint Annotationen zu verbessern. Ein weiterer Beitrag in diesem Bereich nutzt die Fähigkeiten dieser Modelle zur Clustererkennung, um dynamisch wechselnde Kategorien in den Daten zu erkennen. Schließlich enthält ein weiterer Abschnitt eine Beschreibung von Transfer Learning-Ansätzen sowie eine Anwendung von Transfer Learning mit Machine Learning-Problemen unterschiedlicher Granularität in einem medizinischen Kontext.