Kaumanns, Franz David (2016): Assessment and analysis of the applicability of recurrent neural networks to natural language understanding with a focus on the problem of coreference resolution. Dissertation, LMU München: Faculty for Languages and Literatures |
Preview |
PDF
Kaumanns_Franz_D.pdf 10MB |
Abstract
Recurrent Neural Networks erweitern das konnektionistische Prinzip der Informationsverarbeitung um eine grundlegende Fähigkeit biologischer Kognition: temporale Modellierung sequentieller Eingaben. Diese Erweiterung erlaubt einem künstlichen neuronalen Netzwerk, grammatische Muster aus natürlichen Sprachdaten zu lernen und auf eine Aufgabe anzuwenden. Ein lähmendes Problem des Trainings rekurrenter Netzwerke, das "vanishing gradient"-Problem, führte in den neunziger Jahren zur Entwicklung neuer Optimierungsverfahren und Speicherkontrollmechanismen zweiter Ordnung, wie Long Short-Term Memory (LSTM), deren Erfolg jedoch zunächst von den höheren Rechenanforderungen gedämpft wurde. Mit der wachsenden Verfügbarkeit von Rechenleistung und Daten verschob sich der Forschungsfokus bald von der Grundlagenforschung zu Performanzanalysen verschiedener Netzwerkkonfigurationen. Obwohl die Analyse neuronaler Netzwerkmodelle über die Jahre vereinzelt weitergeführt wurde, schien die Verarbeitung natürlicher Sprache weitestgehend außen vor zu bleiben. Diese Arbeit trägt zu kürzlichem und historischem Bestreben bei, die Verarbeitung von natürlicher Sprache von der Eingabeebene bis zur Entscheidungsebene zu verfolgen. Wir untersuchen, wie sich moderne tiefschichtige Netzwerktechnologien einsetzen lassen, um einem wichtigen Ziel der Konnektionismus-Forschung näher zu kommen: das Verständnis über die Verarbeitung von sprachlicher Bedeutung in einem komplexen Netzwerk künstlicher Neuronen. Hierzu verfolgen wir einen Ansatz, der die Komplexität der Experimente iterativ erhöht. Korpora, Algorithmen und Aufgaben werden zunächst kontrolliert reduziert und vereinfacht. Rekurrente LSTM-Klassifizierer werden auf Wortsequenzen aus künstlichen Daten sowie simplen natürlichen Daten trainiert, um ein wohldefiniertes aber schwieriges Problem der Sprachverarbeitung zu lösen: Anapher-Resolution und paarweise Koreferenzresolution. Linguistische und visuelle Analysemethoden erlauben einen intuitiven Einblick in die Aktivität künstlicher Neuronen. Wir hoffen, dass diese Arbeit einen Beitrag leistet für einen wissenschaftlichen Paradigmawandel in Richtung eines tieferen Verständnisses über das komplexe Uhrwerk künstlicher neuronaler Netzwerke.
Abstract
Recurrent Neural Networks extend the connectionist paradigm of information processing with a crucial ability of biological cognition: temporal modeling of sequential input. This extension allows an Artificial Neural Network to learn and apply grammatical patterns from natural language data. In the 1990s, a crippling issue in training recurrent networks, the vanishing gradient problem, was tackled by new optimization techniques and second-order gating mechanisms, such as Long Short-Term Memory (LSTM) units, though their successes were initially dampened by their even higher computational complexity. As technology gradually met the heavy requirements of Deep Learning and vast amounts of training data became available, the focus of research shifted from its initial low-level scientific analysis to high-level performance evaluations. Despite an abundance of work on inspection of deep networks for image processing tasks, neural models for Natural Language Processing have so far largely remained outside the scope of low-level analysis. Deep Learning of natural language has become a black box. This work contributes to recent and historic efforts to understand how natural language input is transformed by a neural network into high-level decisions. We investigate the utilization of latest technologies and insights about Deep Learning in order to come a little closer to a future milestone of connectionist research: understanding how natural language meaning is processed in a complex network of artificial neurons. In order to reach this goal, we pursue a bottom-up approach to experimental complexity. Corpora, algorithms, and task difficulty are scaled down in a controlled fashion. Recurrent LSTM classifiers are trained on token sequences from both artificial and restricted real-life data to solve a well-defined but difficult subtask of natural language understanding: Anaphora Resolution and identification of coreferent mention pairs. Various methods of linguistic and visual analysis help gain insights into neural activity across samples, layers, and time. We hope that this work will prove to be part of a greater scientific shift toward understanding what actually makes a Deep Neural Network tick.
Item Type: | Theses (Dissertation, LMU Munich) |
---|---|
Keywords: | recurrent neural networks, deep learning, natural language processing, lstm, visualization, coreference resolution |
Subjects: | 400 Language 400 Language > 410 Linguistics |
Faculties: | Faculty for Languages and Literatures |
Language: | English |
Date of oral examination: | 6. July 2016 |
1. Referee: | Schütze, Hinrich |
MD5 Checksum of the PDF-file: | 98d58ae4d12e96078f69011c8827cbf8 |
Signature of the printed copy: | 0001/UMC 24289 |
ID Code: | 20130 |
Deposited On: | 05. Dec 2016 14:12 |
Last Modified: | 23. Oct 2020 19:56 |