Chronopoulou, Alexandra (2024): Efficient multilingual and domain adaptation of language models under resource constraints. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik |
Vorschau |
PDF
Chronopoulou_Alexandra.pdf 7MB |
Abstract
Neural networks trained for language modeling, which is the task of finding the missing words in a given sentence, can perform impressively in various natural language processing tasks. For major languages and domains, training data is abundant, so performance is often very good. However, performance drops dramatically when large textual resources are not available. The goal of this thesis is to develop approaches which leverage the available data to build effective multi-lingual and multi-domain natural language processing systems. Specifically, we aim to design models that mitigate the problems created by data disparities. At the same time, we want to develop efficient methods to build systems that maintain satisfactory performance across domains, encoding the nuances of language in both standardized and specialized textual contexts. To design machine translation models that perform well in low-resource languages, this thesis examines both unsupervised and supervised methods. We first investigate how we can create a model that translates between English and a language with limited monolingual data. We find that by training a bilingual language model following a sequential paradigm, we obtain improved performance in the unsupervised setting. Then, we investigate whether static embeddings can provide a cross-lingual signal complementary to that of language models for low-resource language pairs and find this approach useful for unsupervised translation. Next, we propose building a single multilingual machine translation system that translates to low-resource languages by sharing information between related languages using adapters. To adapt a pretrained model to translate to both a new domain and a new language pair simultaneously, we propose training a meta-learning adapter, which is shown to be largely effective in low-resource scenarios. To develop natural language processing models that maintain good performance when trying to solve tasks in new domains, this thesis identifies methods that enable parameter-efficient domain adaptation of language models. We leverage the simple idea that we can represent text from internet websites with a hierarchical tree structure. By training adapters of different granularities using an automatically induced tree, we show that we can achieve better domain adaptation of language models. Finally, we study how we can design language models that are robust to domain shift. We propose a new method that leverages weight arithmetic of selected domain adapters to improve the generalization of a language model to new domains at a minimal computational cost.
Abstract
Neuronale Netzwerke, die für Sprachmodellierung, also das Vorhersagen fehlender Wörter in einem Lückentext, trainiert sind, erzielen beeindruckende Leistung in verschiedensten Aufgaben der Sprachverarbeitung. Für stark verbreitete Sprachen und Domänen gibt es reichlich Trainingsdaten, sodass die Leistung dieser Modelle oft sehr gut ist. Allerdings fällt die Leistung drastisch ab, wenn große Mengen textlicher Ressourcen nicht verfügbar sind. Das Ziel dieser Arbeit ist es, Ansätze zu entwickeln, die die verfügbaren Daten nutzen, um effektive mehrsprachige und multidomainfähige Systeme für die natürliche Sprachverarbeitung aufzubauen. Konkret zielen wir darauf ab Modelle zu entwerfen, die die Probleme, die durch Datenungleichheiten entstehen, mildern. Gleichzeitig möchten wir effiziente Methoden entwickeln um Systeme zu bauen, die robuste Leistung über verschiedene Domänen hinweg aufrechterhalten und dabei die Feinheiten der Sprache sowohl in standardisierten als auch in spezialisierten textuellen Kontexten erfassen. Um Übersetzungsmodelle zu entwerfen, die in ressourcearmen Sprachen gute Leistung erbringen, untersucht diese Arbeit sowohl unüberwachte als auch überwachte Methoden. Zunächst untersuchen wir, wie wir ein Modell erstellen können, das zwischen Englisch und einer Sprache mit limitierten monolingualen Daten übersetzt. Wir stellen fest, dass wir durch das Trainieren eines zweisprachigen Sprachmodells basierend auf einem sequenziellen Paradigma eine verbesserte Leistung im unüberwachten Setting erzielen. Dann untersuchen wir, ob statische Representationen kreuzsprachiger Signale liefern kann, dvon Sprachmodellen für Sprachpaare mit geringen Ressourcen ergänzt werden, und finden diesen Ansatz nützlich für unüberwachte Übersetzungen. Als nächstes erforschenwir den Aufbau eines einzigen mehrsprachigen maschinellen Übersetzungssystems vor, das in ressourcearme Sprachen übersetzt, indem Informationen zwischen verwandten Sprachen unter Verwendung von Adaptern geteilt werden. Um ein vorab trainiertes Modell an neue Domänen und Sprachpaare gleichzeitig anzupassen, schlagen wir das Trainieren eines Meta-Learning Adapters vor, das sich in ressourcearmen Szenarien als weitgehend wirksam erweist. Um Modelle für die natürliche Sprachverarbeitung zu entwickeln, die eine gute Leistung beibehalten, wenn sie versuchen Aufgaben in neuen Domänen zu lösen, identifiziert diese Arbeit Methoden, die eine parametereffiziente Domänenanpassung von Sprachmodellen ermöglichen. Wir nutzen die einfache Idee, dass wir Texte von Internetseiten mit einer hierarchischen Baumstruktur darstellen können. Durch das Training von Adaptern unterschiedlicher Granularität unter Verwendung eines automatisch induzierten Baums, zeigen wir, dass wir eine bessere Domänenanpassung von Sprachmodellen erreichen können. Schließlich untersuchen wir, wie wir Sprachmodelle entwickeln können, die bei Domänenwechsel robust sind. Wir schlagen eine neue Methode vor, die die Gewichtungausgewählter Domänenadapter nutzt, um die Verallgemeinerung eines Sprachmodells auf neue Domänen bei minimalen Rechenkosten zu verbessern.
Dokumententyp: | Dissertationen (Dissertation, LMU München) |
---|---|
Themengebiete: | 000 Allgemeines, Informatik, Informationswissenschaft
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik |
Fakultäten: | Fakultät für Mathematik, Informatik und Statistik |
Sprache der Hochschulschrift: | Englisch |
Datum der mündlichen Prüfung: | 1. Oktober 2024 |
1. Berichterstatter:in: | Fraser, Alexander |
MD5 Prüfsumme der PDF-Datei: | c1cd2f84e0897bcf630f8a73dd5c1206 |
Signatur der gedruckten Ausgabe: | 0001/UMC 30830 |
ID Code: | 34205 |
Eingestellt am: | 22. Nov. 2024 14:14 |
Letzte Änderungen: | 22. Nov. 2024 14:14 |