
SHALLOW DISCOURSE PARSING FOR GERMAN
In den letzten Jahrzehnten wurden in verschiedenen Bereichen der natürlichen Sprachverarbeitung beeindruckende Fortschritte erzielt. Dennoch bleibt es eine Herausforderung, einen Computer dazu zu bringen, den Diskurs der Äußerungen in einem Text zu verstehen.
Es gibt verschiedene Theorien, die darauf abzielen, die kohärente Struktur eines gut geschriebenen Textes zu beschreiben und zu analysieren, jedoch mit unterschiedlichem Grad an Anwendbarkeit und Machbarkeit für den praktischen Gebrauch. In diesem Buch geht es um oberflächliches Diskursparsing, das dem Paradigma der Penn Discourse TreeBank folgt, einem Korpus mit über 1 Million Wörtern, die nach Diskursbeziehungen annotiert sind. Wenn es um Diskursverarbeitung geht, muss jede andere Sprache als Englisch als eine Sprache mit geringen Ressourcen betrachtet werden.
Dieses Buch befasst sich mit dem Diskurs-Parsing für das Deutsche. Die begrenzte Verfügbarkeit von annotierten Daten für das Deutsche bedeutet, dass das Potenzial moderner, auf solchen Daten basierender Methoden ebenfalls begrenzt ist.
In diesem Buch wird untersucht, inwieweit maschinelles Lernen und neuere Deep-Learning-Methoden mit traditionellem linguistischem Feature-Engineering kombiniert werden können, um die Leistung beim Diskurs-Parsing zu verbessern. Der für die Zwecke dieses Buches entwickelte flache Diskursparser für das Deutsche ist Open-Source und online verfügbar. Es wurde auch an mehreren Konnektivitätslexika in verschiedenen Sprachen gearbeitet.
Es werden Strategien für die Erstellung oder Weiterentwicklung solcher Lexika für eine bestimmte Sprache erörtert, ebenso wie Vorschläge, wie man ihre Nützlichkeit für das Parsing von oberflächlichen Diskursen weiter erhöhen kann. Das Buch wird für alle von Interesse sein, die sich mit natürlicher Sprachverarbeitung beschäftigen, insbesondere in anderen Sprachen als Englisch.