Logo Logo
Hilfe
Kontakt
Switch language to English
Exploring the frontiers of word understanding and language model evaluation in NLP
Exploring the frontiers of word understanding and language model evaluation in NLP
The field of natural language processing (NLP) has progressed dramatically with the rise of deep learning, yet many challenges in learning high-quality semantic representations remain. This thesis addresses these challenges through a series of studies focusing on both monolingual and multilingual contexts. First, to improve transfer learning for low-resource languages, we develop methodologies utilizing Turkish as a high-resource proxy for related Turkic languages. By creating and evaluating on the new Kardes-NLU benchmark, we demonstrate substantial performance gains when Turkish is integrated at both intermediate training and fine-tuning stages, underscoring the value of leveraging linguistic relatives in cross-lingual transfer. Second, we explore the underutilized potential of multiparallel corpora for enhancing word alignment. By constructing word alignment graphs from over 80 language pairs and applying advanced graph algorithms, including graph neural networks, we significantly improve alignment accuracy, showcasing the benefits of community detection techniques in multilingual settings. Third, we introduce BiImp, a novel method to enhance the interpretability of word embeddings by aligning dimensions with semantic concepts derived from lexical databases like WordNet and Roget's Thesaurus. This approach enables the creation of interpretable embeddings that maintain high performance and reduces biases, such as gender bias. Finally, we focus on developing robust evaluation measures for language models. We introduce WDLMPro and CoDA21, two challenging benchmarks that assess a model’s ability to match words with definitions and align context with definitions without prior word knowledge, respectively. These benchmarks reveal significant performance gaps between models and human understanding, highlighting critical areas for improvement in language comprehension. This thesis significantly contributes to the field by enhancing the quality of semantic representations in NLP, improving transfer strategies for low-resource languages, advancing word alignment methods, increasing interpretability of embeddings, and developing more nuanced evaluation benchmarks., Das Gebiet der Verarbeitung natürlicher Sprache (NLP) hat mit dem Aufstieg des Deep Learning dramatische Fortschritte gemacht, doch viele Herausforderungen bei der Erzeugung qualitativ hochwertiger semantischer Repräsentationen bleiben bestehen. Diese Dissertation adressiert diese Herausforderungen durch eine Reihe von Studien, die sich sowohl auf monolinguale als auch auf mehrsprachige Kontexte konzentrieren. Erstens entwickeln wir, um das Transferlernen für ressourcenarme Sprachen zu verbessern, Methoden, die Türkisch als ressourcenreiches Proxy für verwandte türkische Sprachen nutzen. Durch die Erstellung und Evaluierung anhand des neuen Kardes-NLU-Benchmarks zeigen wir erhebliche Leistungssteigerungen, wenn Türkisch sowohl in den Zwischen- als auch in den Feinabstimmungsphasen integriert wird, was den Wert der Nutzung sprachlicher Verwandtschaften im cross-lingualen Transfer unterstreicht. Zweitens untersuchen wir das ungenutzte Potenzial multiparalleler Korpora zur Verbesserung der Wortausrichtung. Durch die Erstellung von Wortausrichtungsgraphen aus über 80 Sprachpaaren und die Anwendung fortgeschrittener Graphenalgorithmen, einschließlich graphneurale Netzwerke, verbessern wir die Ausrichtungsgenauigkeit erheblich und zeigen die Vorteile der Community-Detection-Techniken in mehrsprachigen Umgebungen. Drittens führen wir BiImp ein, eine neuartige Methode zur Verbesserung der Interpretierbarkeit von Wort-Embeddings, indem Dimensionen mit semantischen Konzepten aus lexikalischen Datenbanken wie WordNet und Roget's Thesaurus abgeglichen werden. Dieser Ansatz ermöglicht die Erstellung interpretierbarer Embeddings, die eine hohe Leistung beibehalten und Vorurteile wie Geschlechtervorurteile reduzieren. Schließlich konzentrieren wir uns auf die Entwicklung robuster Evaluierungsmaßnahmen für Sprachmodelle. Wir stellen WDLMPro und CoDA21 vor, zwei herausfordernde Benchmarks, die die Fähigkeit eines Modells bewerten, Wörter mit Definitionen abzugleichen und den Kontext mit Definitionen ohne vorherige Wortkenntnis in Übereinstimmung zu bringen. Diese Benchmarks zeigen signifikante Leistungslücken zwischen Modellen und menschlichem Verständnis auf und heben kritische Verbesserungsbereiche im Sprachverständnis hervor. Diese Dissertation trägt erheblich zum Feld bei, indem sie die Qualität semantischer Repräsentationen in der NLP verbessert, Transferstrategien für ressourcenarme Sprachen weiterentwickelt, Methoden zur Wortausrichtung vorantreibt, die Interpretierbarkeit von Embeddings erhöht und nuanciertere Evaluationsbenchmarks entwickelt.
Not available
Şenel, Lütfi Kerem
2025
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Şenel, Lütfi Kerem (2025): Exploring the frontiers of word understanding and language model evaluation in NLP. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of Senel_Lutfi_Kerem.pdf]
Vorschau
PDF
Senel_Lutfi_Kerem.pdf

2MB

Abstract

The field of natural language processing (NLP) has progressed dramatically with the rise of deep learning, yet many challenges in learning high-quality semantic representations remain. This thesis addresses these challenges through a series of studies focusing on both monolingual and multilingual contexts. First, to improve transfer learning for low-resource languages, we develop methodologies utilizing Turkish as a high-resource proxy for related Turkic languages. By creating and evaluating on the new Kardes-NLU benchmark, we demonstrate substantial performance gains when Turkish is integrated at both intermediate training and fine-tuning stages, underscoring the value of leveraging linguistic relatives in cross-lingual transfer. Second, we explore the underutilized potential of multiparallel corpora for enhancing word alignment. By constructing word alignment graphs from over 80 language pairs and applying advanced graph algorithms, including graph neural networks, we significantly improve alignment accuracy, showcasing the benefits of community detection techniques in multilingual settings. Third, we introduce BiImp, a novel method to enhance the interpretability of word embeddings by aligning dimensions with semantic concepts derived from lexical databases like WordNet and Roget's Thesaurus. This approach enables the creation of interpretable embeddings that maintain high performance and reduces biases, such as gender bias. Finally, we focus on developing robust evaluation measures for language models. We introduce WDLMPro and CoDA21, two challenging benchmarks that assess a model’s ability to match words with definitions and align context with definitions without prior word knowledge, respectively. These benchmarks reveal significant performance gaps between models and human understanding, highlighting critical areas for improvement in language comprehension. This thesis significantly contributes to the field by enhancing the quality of semantic representations in NLP, improving transfer strategies for low-resource languages, advancing word alignment methods, increasing interpretability of embeddings, and developing more nuanced evaluation benchmarks.

Abstract

Das Gebiet der Verarbeitung natürlicher Sprache (NLP) hat mit dem Aufstieg des Deep Learning dramatische Fortschritte gemacht, doch viele Herausforderungen bei der Erzeugung qualitativ hochwertiger semantischer Repräsentationen bleiben bestehen. Diese Dissertation adressiert diese Herausforderungen durch eine Reihe von Studien, die sich sowohl auf monolinguale als auch auf mehrsprachige Kontexte konzentrieren. Erstens entwickeln wir, um das Transferlernen für ressourcenarme Sprachen zu verbessern, Methoden, die Türkisch als ressourcenreiches Proxy für verwandte türkische Sprachen nutzen. Durch die Erstellung und Evaluierung anhand des neuen Kardes-NLU-Benchmarks zeigen wir erhebliche Leistungssteigerungen, wenn Türkisch sowohl in den Zwischen- als auch in den Feinabstimmungsphasen integriert wird, was den Wert der Nutzung sprachlicher Verwandtschaften im cross-lingualen Transfer unterstreicht. Zweitens untersuchen wir das ungenutzte Potenzial multiparalleler Korpora zur Verbesserung der Wortausrichtung. Durch die Erstellung von Wortausrichtungsgraphen aus über 80 Sprachpaaren und die Anwendung fortgeschrittener Graphenalgorithmen, einschließlich graphneurale Netzwerke, verbessern wir die Ausrichtungsgenauigkeit erheblich und zeigen die Vorteile der Community-Detection-Techniken in mehrsprachigen Umgebungen. Drittens führen wir BiImp ein, eine neuartige Methode zur Verbesserung der Interpretierbarkeit von Wort-Embeddings, indem Dimensionen mit semantischen Konzepten aus lexikalischen Datenbanken wie WordNet und Roget's Thesaurus abgeglichen werden. Dieser Ansatz ermöglicht die Erstellung interpretierbarer Embeddings, die eine hohe Leistung beibehalten und Vorurteile wie Geschlechtervorurteile reduzieren. Schließlich konzentrieren wir uns auf die Entwicklung robuster Evaluierungsmaßnahmen für Sprachmodelle. Wir stellen WDLMPro und CoDA21 vor, zwei herausfordernde Benchmarks, die die Fähigkeit eines Modells bewerten, Wörter mit Definitionen abzugleichen und den Kontext mit Definitionen ohne vorherige Wortkenntnis in Übereinstimmung zu bringen. Diese Benchmarks zeigen signifikante Leistungslücken zwischen Modellen und menschlichem Verständnis auf und heben kritische Verbesserungsbereiche im Sprachverständnis hervor. Diese Dissertation trägt erheblich zum Feld bei, indem sie die Qualität semantischer Repräsentationen in der NLP verbessert, Transferstrategien für ressourcenarme Sprachen weiterentwickelt, Methoden zur Wortausrichtung vorantreibt, die Interpretierbarkeit von Embeddings erhöht und nuanciertere Evaluationsbenchmarks entwickelt.