| Nie, Ercong (2025): Efficient and human-inspired natural language processing methods for multilingual and low-resource settings. Dissertation, LMU München: Fakultät für Sprach- und Literaturwissenschaften |
Vorschau |
PDF
Nie_Ercong.pdf 35MB |
Abstract
The rapid advancement of large language models (LLMs) has revolutionized natural language processing (NLP), yet the benefits of these technologies remain unevenly distributed across the world’s languages. Most state-of-the-art models are optimised for high-resource languages, leaving the majority of the world’s linguistic diversity underrepresented and underserved. This dissertation addresses the dual challenge of efficiency and inclusivity in multilingual NLP by developing novel, human-inspired methods that extend the reach of language technology to low-resource settings. The research is organised around four interrelated threads. First, the dissertation advances prompt-based learning for multilingual prediction, introducing robust calibration techniques and cross-lingual retrieval-augmented prompting (PARC) to mitigate label bias and enhance zero- and few-shot performance, particularly for low-resource and typologically diverse languages. Apart from classification tasks, we extend the applications of prompt-based learning to other multilingual task types. Decomposed prompting strategies are proposed to probe the linguistic structure knowledge encoded in LLMs, while the BMIKE-53 benchmark extends prompt-based learning to cross-lingual knowledge editing, enabling systematic evaluation across 53 languages. Second, the work systematically investigates prompt-based fine-tuning for zero-shot cross-lingual transfer. Through comprehensive empirical studies, it is demonstrated that prompt-based fine-tuning consistently outperforms traditional approaches for both classification and structured prediction tasks, including part-of-speech tagging and named entity recognition. Beyond modern languages, we exemplify the application of cross-lingual transfer to historical language processing by applying a delexicalized constituency parser for Middle High German. Third, the dissertation addresses practical constraints in low-resource NLP deployment by introducing efficient data augmentation and parameter-efficient fine-tuning methods. The AMD2G framework enables robust multi-domain dialogue generation in low-resource settings through domain-agnostic training and adaptation, while GNNavi leverages graph neural networks to guide information flow in prompt-based fine-tuning, achieving competitive results with minimal parameter updates. Finally, the dissertation shifts focus to human-inspired interpretability and mechanistic understanding of language models. By integrating psycholinguistic and neurolinguistic probing paradigms, it reveals a persistent gap between model performance and true linguistic competence, with LLMs demonstrating stronger mastery of linguistic form than meaning. Mechanistic interpretability techniques are employed to trace and mitigate language confusion in English-centric LLMs, showing that targeted neuron-level interventions can robustly improve multilingual reliability without sacrificing general competence. Collectively, these contributions advance both the practical capabilities and scientific understanding of multilingual NLP. The dissertation demonstrates that prompt-based and parameter-efficient methods, when combined with human-inspired analysis, can make NLP more inclusive, interpretable, and robust. Looking forward, the work highlights the importance of developing culturally and socially aware language models, extending interpretability research to cross-cultural conceptual understanding, and leveraging insights from cognitive science and neuroscience to inspire the next generation of human-centric multilingual NLP systems.
Abstract
Der rasante Fortschritt großer Sprachmodelle (Large Language Models, LLMs) hat das Natural Language Processing (NLP) grundlegend revolutioniert. Dennoch sind die Vorteile dieser Technologien weltweit ungleich verteilt: Die meisten modernen Modelle sind auf ressourcenstarke Sprachen optimiert, wodurch der Großteil der sprachlichen Vielfalt unterrepräsentiert und unzureichend unterstützt bleibt. Diese Dissertation adressiert die doppelte Herausforderung von Effizienz und Inklusivität im mehrsprachigen NLP, indem neuartige, menscheninspirierte Methoden entwickelt werden, die den Einsatz von Sprachtechnologie auf ressourcenarme Kontexte ausweiten. Die Forschung ist um vier miteinander verbundene Schwerpunkte organisiert. Erstens werden promptbasierte Lernverfahren für mehrsprachige Vorhersagen weiterentwickelt. Robuste Kalibrierungstechniken und sprachübergreifende, retrieval-erweiterte Prompts (PARC) werden eingeführt, um Label-Bias zu mindern und die Zero- und Few-Shot-Performance insbesondere für ressourcenarme und typologisch diverse Sprachen zu verbessern. Über Klassifikationsaufgaben hinaus werden promptbasierte Methoden auf weitere mehrsprachige Aufgaben ausgeweitet. Problem-zerlegende Prompting-Strategien dienen dazu, das in LLMs kodierte Wissen über linguistische Strukturen gezielt zu untersuchen, während der BMIKE-53-Benchmark promptbasiertes Lernen auf das cross-linguale Knowledge Editing ausweitet und eine systematische Evaluation in 53 Sprachen ermöglicht. Zweitens wird promptbasiertes Fine-Tuning für Zero-Shot-Cross-Lingual-Transfer systematisch untersucht. Unsere umfangreichen empirischen Studien zeigen, dass promptbasiertes Fine-Tuning traditionelle Ansätze sowohl bei Klassifikations- als auch bei strukturierten Vorhersageaufgaben (z.B. POS-Tagging, Named Entity Recognition) konsistent übertrifft. Über moderne Sprachen hinaus veranschaulichen wir die Anwendung des cross-lingualen Transfers auf die Verarbeitung historischer Sprachen, indem wir einen delexikalisierten Konstituentenparser für Mittelhochdeutsch anwenden. Drittens werden praxisnahe Einschränkungen beim Einsatz von NLP in ressourcenarmen Umgebungen adressiert, indem effiziente Methoden zur Datenaugmentation und zum parameter-effizienten Fine-Tuning eingeführt werden. Das AMD$^2$G-Framework ermöglicht robuste, mehr-Domänen-Dialoggenerierung in ressourcenarmen Umgebungen durch domänen-unabhängiges Training und Adaption, während GNNavi Graph-Neural-Networks nutzt, um den Informationsfluss beim promptbasierten Fine-Tuning gezielt zu steuern und mit minimalen Parameteranpassungen wettbewerbsfähige Ergebnisse zu erzielen. Schließlich richtet die Dissertation den Fokus auf menscheninspirierte Interpretierbarkeit und mechanistisches Verständnis von Sprachmodellen. Durch die Integration psycholinguistischer und neurolinguistischer Probing-Paradigmen wird eine beständige Lücke zwischen Modellleistung und tatsächlicher Sprachkompetenz aufgezeigt. Zudem wird festgestellt, dass LLMs die linguistische Form besser beherrschen als die Bedeutung. Mechanistische Interpretierbarkeitsverfahren werden eingesetzt, um Sprachverwirrung in englischzentrierten LLMs zu analysieren und zu beheben; gezielte Interventionen auf Ebene der Neuronen verbessern dabei die Zuverlässigkeit bei anderen Sprachen, ohne die allgemeine Kompetenz zu beeinträchtigen. In ihrer Gesamtheit erweitert diese Dissertation sowohl die praktischen Möglichkeiten als auch das wissenschaftliche Verständnis der multilingualen Sprachverarbeitung. Die Dissertation zeigt, dass promptbasierte und parameter-effiziente Methoden, kombiniert mit menscheninspirierter Analyse, NLP inklusiver, interpretierbarer und robuster machen können. Für die Zukunft wird die Bedeutung der kulturellen und sozialen Sensibilität der Sprachmodelle hervorgehoben, die Erweiterung der Interpretierbarkeitsforschung auf kulturübergreifende konzeptuelle Repräsentationen angeregt und das Potenzial interdisziplinärer Ansätze aus Kognitionswissenschaft und Neurowissenschaft für die nächste Generation menschenzentrierter, mehrsprachiger NLP-Systeme betont.
| Dokumententyp: | Dissertationen (Dissertation, LMU München) |
|---|---|
| Keywords: | Multilingual Natural Language Processing, Large Language Models, Model Interpretability, Cross-Lingual Transfer |
| Themengebiete: | 000 Allgemeines, Informatik, Informationswissenschaft
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik 400 Sprache 400 Sprache > 410 Linguistik |
| Fakultäten: | Fakultät für Sprach- und Literaturwissenschaften |
| Sprache der Hochschulschrift: | Englisch |
| Datum der mündlichen Prüfung: | 23. Oktober 2025 |
| 1. Berichterstatter:in: | Schmid, Helmut |
| MD5 Prüfsumme der PDF-Datei: | 8810a060c42014e6eba1cbb47d812381 |
| Signatur der gedruckten Ausgabe: | 0001/UMC 31680 |
| ID Code: | 36162 |
| Eingestellt am: | 16. Jan. 2026 12:10 |
| Letzte Änderungen: | 16. Jan. 2026 12:10 |