240 likes | 356 Views
Computerlinguistik. 1. Vorlesung (15.10.2009). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de Charlotte Wollermann, MA cwo@ifk.uni-bonn.de. Computerlinguistik. Kontaktdaten.
E N D
Computerlinguistik 1. Vorlesung (15.10.2009) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de Charlotte Wollermann, MA cwo@ifk.uni-bonn.de
Computerlinguistik Kontaktdaten apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie (FKIE) Neuenahrer Straße 20 53343 Wachtberg E-Mail: ulrich.schade@fkie.fraunhofer.degeändert!! Telefon: 0228 9435 376 Fax: 0228 9435 685
Computerlinguistik Scheinkriterien • Leistungsschein: • Anwesenheit (= maximal zweimal unentschuldigtes Fehlen) • Erstellung einer Hausarbeit (etwa 20 Seiten) zu einem Teilthema, • welches in der Vorlesung behandelt wurde, dessen Vertiefung • von Interesse ist für die Person, die den Schein erwerben möchte • Teilnahmeschein: • Anwesenheit • Protokoll einer Sitzung • (vor der darauf folgenden Sitzung per Mail zu schicken)
Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem Dies ist nur ein Teil der Themen, die man unter „Computerlinguistik“ behandeln kann.
Computerlinguistik Ziel der Vorlesung (Dies ist nur ein Teil der Themen, die man unter „Computerlinguistik“ behandelt könnte.) Dies ist keine Einführungsvorlesung in die Computerlinguistik. (Die Vorlesung richtet sich statt dessen an Studierende im Hauptstudium.) Ziel ist es, das Zusammenwirken von unterschiedlichen Methoden und Anwendungsfeldern der Computerlinguistik aufzuzeigen. Wir werden also gegen Ende der Veranstaltung ein Gesamtsystem besprechen, in welchem die Methoden und Anwendungen verknüpft werden, um eine Gesamtaufgabe zu lösen.
Computerlinguistik Definitionen “In der Computerlinguistikwird untersucht, wie natürliche Sprachemit Hilfe des Computersalgorithmisch verarbeitet werden kann. Sie ist Teilbereich der Künstlichen Intelligenz und gleichzeitig Schnittstelle zwischen Sprachwissenschaftund Informatik.“ http://de.wikipedia.org/wiki/Computerlinguistik
Computerlinguistik Definitionen “Computational Linguistics is an interdisciplinary field concerned with the processing of language by computers.” Mitkov, Ruslan (2002). Preface, S. ix. In: Mitkov, Ruslan (Ed.), The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press.
Thema Blickwinkel, aus denen man Sprachverarbeitung untersucht Computerlinguistik Informatik Linguistik KI Psycholinguistik Neurolinguistik Kognitionspsychologie Medizin Neuropsychologie
Computerlinguistik Ziele der unterschiedlichen Disziplinen Sprachverarbeitung in der Informatikhat das Ziel, Ergebnisse zu erzielen (= Lösung des Problems). Die Güte der verwendeten Methoden bzw. des verwendeten Programms ergibt sich aus dem Resultat (Wie erfolgreich wurde das Problem gelöst?). Sprachverarbeitung in den Kognitionswissenschaften hat das Ziel, den kognitiven Prozess nachzubilden (= Modellbildung). Die Güte der verwendeten Methoden ergibt sich aus der Vorhersagekraft in Bezug auf den kognitiven Prozess (Kann man aus dem Modell neue und interessante Aussagen darüber machen, wie der kognitive Prozess in bestimmten Fällen ablaufen sollte?).
Computerlinguistik Ziele der unterschiedlichen Disziplinen Computerlinguistische Verfahren und Ansätze werden sowohl in der Informatik als auch in den Kognitionswissenschaftenverwendet, um die Verarbeitung von Sprache zu leisten bzw. zu untersuchen. Interaktion Kognitive Modelle liefern der Informatik/KI Ideen dazu, wie Probleme (besonders effektiv) gelöst werden könnten. Funktionierende Programme liefern den Kognitionswissenschaften Ideen, wie kognitive Prozesse ablaufen könnten.
Computerlinguistik Ziele der unterschiedlichen Disziplinen Beispiel 1: Computer als kognitionswissenschaftliches Modell „[T]he nervous system has a prima faciedigital character.“ John von Neumann (1958). The Computer and the Brain. (Yale University Silliman Lectures.) New Haven, CT: Yale University Press.
Computerlinguistik Ziele der unterschiedlichen Disziplinen Beispiel 2: Kognitionswissenschaftliche Erkenntnis als Bauplan fürKI-Anwendung Levelt, Roelofs & Meyer (1999). A theory of lexical access in speech Production. Behavioral and Brain Sciences, 22, 1-75. Silben
Computerlinguistik Ziele der unterschiedlichen Disziplinen Beispiel 2: Kognitionswissenschaftliche Erkenntnis als Bauplan fürKI-Anwendung z.B.: Silben als Grundbausteine für ein Sprachsynthesesystem
Computerlinguistik Geschichtliches: Ausgangspunkt Ausgangspunkt der Entwicklung von Computerlinguistik als Wissenschaftszweig war die Idee der Maschinellen Übersetzung: Warren Weaver (1894-19789) legte 1949 eine Serie von Essays über die maschinelle Übersetzung [mit Computern] vor, die als Weaver-Memorandum bekannt sind. Hierin formulierte er Ziele und Ideen zur Durchführung der maschinellen Übersetzung, bevor die meisten überhaupt verstanden hatten, was Computer zu leisten imstande sein würden. [http://de.wikipedia.org/wiki/Warren_Weaver]
Computerlinguistik Geschichtliches: Computerlinguistik als Begriff „Computerlinguistik“ etablierte sich als Begriff durch die Umbenennung der Fachzeitschrift „Mechanical Translation“ (erste Ausgabe 1954) zu „Mechanical Translation and Computational Linguistics“ (1965). weitere Umbenennungen dieses Journals erfolgten 1974: American Journal of Computational Linguistics (AJCL) 1984: Computational Linguistics nach Kay, Martin (2002). Introduction. In: Mitkov, R. The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. und http://www.aclweb.org/anthology-new/docs/cl.html
Computerlinguistik Geschichtliches: Phasen frühe Phase: MT als Dekodierungsprozess (statistische Analysen), aber dann „The best known event in the history of machine translation is without doubt the publication thirty years ago in November 1966 of the report by the Automatic Language Processing Committee (ALPAC 1966). Its effect was to bring an end to substantial funding of MT research in the United States for some 20 years. More significantly, perhaps, was the clear message to the general public and the rest of the scientific community that MT was hopeless. For years afterwards, an interest in MT was something to keep quite about; it was almost shameful.“ Hutchins, J. (1996): ALPAC: the (in)famous report. MT News International, 14, 9-12. http://www.hutchinsweb.me.uk/MTNI-14-1996.pdf
Computerlinguistik Geschichtliches: Phasen • Auf die frühe (statistische) Phase folgte eine Phase der rein symbolischen (regelbasierten) Sprachverarbeitung, wobei für die verwendeten Regeln linguistisches Wissen genutzt werden muss. Statistische Verarbeitung wurde zunächst nicht mehr versucht. Gründe dafür waren • zu leistungsschwache Computer und • die durch Chomsky (1957) initiierte Frage, ob sich der Unterschied zwischen „Colorless green ideas sleep furiously“ und „Furisously sleep ideas green colorless“ überhaupt statistisch erkennen lässt. Die Antwort ist zwar „ja“; aber das wurde zunächst nicht erkannt, weil ja auch der erste „Satz“ in keinem Korpus vorkommt.
Computerlinguistik Geschichtliches: Phasen • Durch die Phase der symbolischen Verarbeitung im Rahmen der Computerlinguistik wurden auch linguistische Theorien weiterentwickelt. • Beispiele dafür sind • die Weiterentwicklung der Grammatiktheorie durch unifikations-basierte Ansätze (PATRII, LFG, HPSG) und • Applikationen für die Phonologie und für die Morphologie, die auf endlichen Automaten beruhen.
Computerlinguistik Geschichtliches: Phasen Regelbasierte Verfahren (symbolische Verarbeitung) setzen voraus, dass die linguistischen Regeln, die in Bezug auf die zu realisierende Anwendung relevant sind, bekannt sind und kodiert werden können. Manchmal sind diese Regeln nicht bekannt. (Beispiel: Für die Genuszuordnung bei deutschen Nomen gibt es einige Regeln, etwa „Nomen die mit -ung enden, sind feminin“, die aber nicht unbedingt bekannt sind und die auch nicht alle Nomen abdecken.) Außerdem gibt es in natürlichen Sprachen stets Ausnahmen zu den Regeln. (Beispiel: Benennungen für Obst sind meist feminin; Ausnahme: Apfel.)
Computerlinguistik Geschichtliches: Phasen Durch die Einführung immer leistungsstärkerer Computer ist inzwischen die Sprachverarbeitung mittels statistischer (oder korpus-basierter) Verfahren wieder (sehr gut) möglich. Ein typisches Beispiel ist die beispielbasierte maschinelle Übersetzung, bei der die Übersetzung aus Teilen zusammengefügt wird, für die es im Korpus Belege gibt. Notwendig dafür ist offensichtlich ein ausreichend großes Korpus, welches außerdem in Bezug auf die Anwendung (thematisch) angemessen ist. Ein anderes Beispiel bilden die adaptiven (Lern-)Verfahren in der Erkennung von gesprochener Sprache.
Computerlinguistik Geschichtliches: Phasen Statistische Verfahren reflektieren in der Regel statistische Effekte. Diese Effekte setzen sich aber unter Umständen aus mehreren Einzeleffekten zusammen, wobei die Einzeleffekte zu unterschiedlichen linguistischen Ebenen gehören können. Beispiel: Die statistisch naheliegende Interpretation von „Der Mann sah die Frau mit dem Fernglas“, worin die PP als „Instrument“ gedeutet wird, ergibt sich auch daraus, dass ein Fernglas ein typisches Instrument für „sehen“ ist. Dies ist also kein rein syntaktischer Effekt.
Computerlinguistik Geschichtliches: Phasen Wendet man statistische Verfahren an, so hat man immer dann Probleme, wenn Ausnahmefälle auftreten, da diese statistisch gar nicht erfasst sind oder durch die häufigeren Fälle überschrieben werden. Beispiel: „Tyrion had blood in his mouth and spat it on the floor“ wird zu „Tyrion hatte Blut im Mund und spuckte ihn auf den Boden“, weil es eine statistische Präferenz dafür gibt, das Personalpronomen auf die nächst-vorausgehende NP zu beziehen.
Computerlinguistik Geschichtliches: Phasen In vielen Fällen kann man Schwächen von statistischen Verfahren dadurch ausgleichen, dass man linguistisches Regelwissen anwendet. Aus dieser Einsicht heraus entwickelt man derzeit recht häufig so genannte „hybride“ Systeme, in denen statistische Komponenten und regelbasierte Komponenten zusammenwirken, wodurch zum Teil die jeweiligen Schwächen der Ansätze ausgeglichen werden.
Computerlinguistik Literatur • RuslanMitkov (Ed.): The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press, 2002. • Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat und Ralf Klabunde (Hrsg.): Computerlinguistik und Sprachtechnologie. Berlin: Spektrum Akademischer Verlag, 2. Auflage, 2004. • Noam Chomsky: Syntactic Structures. Den Haag: Mouton, 1957.