Logo Logo
Help
Contact
Switch language to German
Werkzeuge für Rechtsdatenbanken. Über computerlinguistische Verfahren zur Untersuchung, Speicherung und Kommunikation rechtlichen Wissens
Werkzeuge für Rechtsdatenbanken. Über computerlinguistische Verfahren zur Untersuchung, Speicherung und Kommunikation rechtlichen Wissens
Wenn in Rechtstexten Wissen über das Recht enthalten ist, dann müsste in vielen Texten viel Recht zu finden sein. Die Korpuslinguistik bearbeitet linguistische Fragestellungen anhand großer Textmengen, die ausgewählt, erworben, aufbereitet (annotiert) und dann durchsucht/bearbeitet werden. Die fünf Kapitel dieser Arbeit widmen sich jeweils einem wichtigen Thema, zu dem Methoden vorgestellt, in Werkzeugen implementiert und diskutiert werden. Im ersten Kapitel (Dokumentklassifikation) wird eine Methode vorgestellt, mit der gezielt Rechtstexte aus dem Internet ausgewählt, akquiriert und geordnet in ein Korpus abgelegt werden können. Auch hier sollen die Voraussetzungen so gering wie möglich gehalten werden, damit möglichst breiter Gebrauch von der Methode gemacht werden kann. Die Einteilung des Rechts in einzelne Fachgebiete hat weitreichende Folgen. Sowohl Texte wie Rechtskonzepte erlangen ihre spezielle Bedeutung durch ihr Fachgebiet. Das zweite Kapitel (Fachgebietsklassifikation) gibt einen Überblick über die Problematik der Fachgebietseinteilung und stellt zwei automatische Fachgebietserkenner vor, die diese Spezialaufgabe besser lösen als die in Kapitel 1 vorgestellte allgemeine Dokumentklassifikation. Eine große Veränderung erfährt die Rechtsterminologie und -terminografie durch den Übergang von der physischen zur elektronischen Schrift. Damit muss nicht mehr eine Darstellungsweise allen Anforderungen gerecht werden, sondern die Darstellung kann dynamisch an die Umstände angepasst werden. Im dritten Kapitel (Dynamische Termdarstellung) wird das Konzept einer dynamischen Termdarstellung vorgestellt und seine technische Umsetzung skizziert. Das vierte Kapitel Termextraktion durch Beispielterme stellt eine automatische Termextraktionsmethode vor, die mit relativ geringen Voraussetzungen gute Ergebnisse liefert und damit für weniger stark verbreitete Sprachen eine Alternative zu kommerziellen Programmen darstellt. Dieses Instrument kann bei der zentralen Aufgabenstellung der Terminografie, dem Auffinden und der Auswahl der Termini, eingesetzt werden. Hier wird aber auch gezeigt, wie die Termextraktion zur Indizierung des in den meisten terminografischen Projekten vorhandenen Hintergrundkorpus verwendet werden kann. Das fünfte Kapitel (Organisation rechtlichen Wissens) gibt einen Überblick über die vielfältigen Möglichkeiten der Einteilung und Repräsentation von (rechtlichem) Wissen. Eine Methode der Wissensrepräsentation mit formaler Sprache, die logische Operationen ermöglicht, ist eine Ontologie. Es wurde eine Ontologie für eine Rechtsdatenbank erstellt und alle damit zusammenhängenden Aspekte diskutiert. Im Fazit wird schließlich diskutiert, für welche Bereiche der Arbeit mit Rechtsdatenbanken bereits jetzt relativ einfache Werkzeuge zur Verfügung stehen und wo die Entwicklung von weiteren Werkzeugen ansetzen könnte. Die Kapitel sind so geschrieben, dass sie auch einzeln gelesen werden können, ohne jedoch allzu starke Überschneidungen zuzulassen., La thèse de doctorat «Outils pour des bases de données juridiques» traîte des méthodes linguistiques et informatiques pour comprendre, mémoriser et communiquer des connaissances juridiques. Les sujets traités sont: I. La classification de documents Je discute les classes importantes pour des documents juridiques et je propose une classi-fication automatique qui n’utilise pas seulement le texte du document, mais aussi d’autres critères comme l’adresse du document, l’adresse des liens et le contexte de la recherche de documents. II. L’identification de disciplines en terminographie Je prétends que toute répartition en disciplines et sous-disciplines est par nature relative. Puis je présente deux méthodes pour l’identification de la discipline d’un texte. La pre-mière utilise les termes et la deuxième les textes (définitions et contextes) présents dans la base de données terminographique. III. La présentation dynamique de termes Je discute les problèmes de la présentation de termes traditionnelle pour livres et les avantages d’une présentation adaptée dynamiquement aux besoins concrets de chaque client. Pour prouver la faisabilité de cette nouvelle approche, j’indique la technologie applicable pour chaque fonction et je présente une mise en œuvre dans le système termi-nographique BISTRO (www.eurac.edu/bistro) IV. L’extraction de termes Je discute les caractéristiques des trois méthodes pour l’extraction de termes. Après je montre l’efficacité de la méthode basée sur des exemples lors d’une expérience. L’outil est librement accessible en Internet et peut servir pour l’indexation d’un corpus. V. L’organisation du savoir juridique Je discute exhaustivement tous les systèmes répandus d’organisation du savoir, de mots-clés jusqu’aux ontologies. Ensuite je décrits le procédé et les problèmes concrets pour organiser une base de données juridiques avec une ontologie.
Not available
Voltmer, Leonhard A. G.
2005
German
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Voltmer, Leonhard A. G. (2005): Werkzeuge für Rechtsdatenbanken: Über computerlinguistische Verfahren zur Untersuchung, Speicherung und Kommunikation rechtlichen Wissens. Dissertation, LMU München: Faculty for Languages and Literatures
[thumbnail of Leonhard_Voltmer.pdf]
Preview
PDF
Leonhard_Voltmer.pdf

3MB

Abstract

Wenn in Rechtstexten Wissen über das Recht enthalten ist, dann müsste in vielen Texten viel Recht zu finden sein. Die Korpuslinguistik bearbeitet linguistische Fragestellungen anhand großer Textmengen, die ausgewählt, erworben, aufbereitet (annotiert) und dann durchsucht/bearbeitet werden. Die fünf Kapitel dieser Arbeit widmen sich jeweils einem wichtigen Thema, zu dem Methoden vorgestellt, in Werkzeugen implementiert und diskutiert werden. Im ersten Kapitel (Dokumentklassifikation) wird eine Methode vorgestellt, mit der gezielt Rechtstexte aus dem Internet ausgewählt, akquiriert und geordnet in ein Korpus abgelegt werden können. Auch hier sollen die Voraussetzungen so gering wie möglich gehalten werden, damit möglichst breiter Gebrauch von der Methode gemacht werden kann. Die Einteilung des Rechts in einzelne Fachgebiete hat weitreichende Folgen. Sowohl Texte wie Rechtskonzepte erlangen ihre spezielle Bedeutung durch ihr Fachgebiet. Das zweite Kapitel (Fachgebietsklassifikation) gibt einen Überblick über die Problematik der Fachgebietseinteilung und stellt zwei automatische Fachgebietserkenner vor, die diese Spezialaufgabe besser lösen als die in Kapitel 1 vorgestellte allgemeine Dokumentklassifikation. Eine große Veränderung erfährt die Rechtsterminologie und -terminografie durch den Übergang von der physischen zur elektronischen Schrift. Damit muss nicht mehr eine Darstellungsweise allen Anforderungen gerecht werden, sondern die Darstellung kann dynamisch an die Umstände angepasst werden. Im dritten Kapitel (Dynamische Termdarstellung) wird das Konzept einer dynamischen Termdarstellung vorgestellt und seine technische Umsetzung skizziert. Das vierte Kapitel Termextraktion durch Beispielterme stellt eine automatische Termextraktionsmethode vor, die mit relativ geringen Voraussetzungen gute Ergebnisse liefert und damit für weniger stark verbreitete Sprachen eine Alternative zu kommerziellen Programmen darstellt. Dieses Instrument kann bei der zentralen Aufgabenstellung der Terminografie, dem Auffinden und der Auswahl der Termini, eingesetzt werden. Hier wird aber auch gezeigt, wie die Termextraktion zur Indizierung des in den meisten terminografischen Projekten vorhandenen Hintergrundkorpus verwendet werden kann. Das fünfte Kapitel (Organisation rechtlichen Wissens) gibt einen Überblick über die vielfältigen Möglichkeiten der Einteilung und Repräsentation von (rechtlichem) Wissen. Eine Methode der Wissensrepräsentation mit formaler Sprache, die logische Operationen ermöglicht, ist eine Ontologie. Es wurde eine Ontologie für eine Rechtsdatenbank erstellt und alle damit zusammenhängenden Aspekte diskutiert. Im Fazit wird schließlich diskutiert, für welche Bereiche der Arbeit mit Rechtsdatenbanken bereits jetzt relativ einfache Werkzeuge zur Verfügung stehen und wo die Entwicklung von weiteren Werkzeugen ansetzen könnte. Die Kapitel sind so geschrieben, dass sie auch einzeln gelesen werden können, ohne jedoch allzu starke Überschneidungen zuzulassen.

Abstract

La thèse de doctorat «Outils pour des bases de données juridiques» traîte des méthodes linguistiques et informatiques pour comprendre, mémoriser et communiquer des connaissances juridiques. Les sujets traités sont: I. La classification de documents Je discute les classes importantes pour des documents juridiques et je propose une classi-fication automatique qui n’utilise pas seulement le texte du document, mais aussi d’autres critères comme l’adresse du document, l’adresse des liens et le contexte de la recherche de documents. II. L’identification de disciplines en terminographie Je prétends que toute répartition en disciplines et sous-disciplines est par nature relative. Puis je présente deux méthodes pour l’identification de la discipline d’un texte. La pre-mière utilise les termes et la deuxième les textes (définitions et contextes) présents dans la base de données terminographique. III. La présentation dynamique de termes Je discute les problèmes de la présentation de termes traditionnelle pour livres et les avantages d’une présentation adaptée dynamiquement aux besoins concrets de chaque client. Pour prouver la faisabilité de cette nouvelle approche, j’indique la technologie applicable pour chaque fonction et je présente une mise en œuvre dans le système termi-nographique BISTRO (www.eurac.edu/bistro) IV. L’extraction de termes Je discute les caractéristiques des trois méthodes pour l’extraction de termes. Après je montre l’efficacité de la méthode basée sur des exemples lors d’une expérience. L’outil est librement accessible en Internet et peut servir pour l’indexation d’un corpus. V. L’organisation du savoir juridique Je discute exhaustivement tous les systèmes répandus d’organisation du savoir, de mots-clés jusqu’aux ontologies. Ensuite je décrits le procédé et les problèmes concrets pour organiser une base de données juridiques avec une ontologie.