440 likes | 631 Views
eAQUA Workshop Einführung Linguistische Informatik. Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de. Gegenstand und Ziele ASV. Gegenstand der Automatischen Sprachverarbeitung (ASV) sind Daten, Verfahren Anwendungen für die automatische semantische Analyse von Text.
E N D
eAQUA WorkshopEinführung Linguistische Informatik Gerhard HeyerUniversität Leipzig heyer@informatik.uni-leipzig.de
Gegenstand und Ziele ASV Gegenstand der Automatischen Sprachverarbeitung (ASV) sind • Daten, • Verfahren • Anwendungen für die automatische semantische Analyse von Text. Ziel ist die automatische Extraktion von (linguistischem und nicht linguistischem) Wissen aus Texten Prof. Dr. G. Heyer Modul Linguistische Informatik
Gegenstand und Ziele ASV Wissen (knowledge) Meist auf Erfahrung beruhende und objektiv nachprüfbare Kenntnis von Fakten und Zusammen-hängen eines Weltausschnitts, die Personen zur Lösung von Problemen einsetzen. Wissen ermöglicht die Vernetzung von Informationen. Prof. Dr. G. Heyer Modul Linguistische Informatik
Gegenstand und Ziele ASV Gegenstand der Automatischen Sprachverarbeitung (ASV) sind Daten, Verfahren und Anwendungen für die automatische semantische Analyse von Text Ziel ist die automatische Extraktion von (linguistischem und nicht linguistischem) Wissen aus Texten • automatische Verarbeitung von geschriebener Sprache (Text) • unabhängig von einer Einzelsprache und deren Kodierung • Teil der Angewandten Informatik • Abteilung am Institut für Informatik in der Fakultät für Mathematik und Informatik Prof. Dr. G. Heyer Modul Linguistische Informatik
Aspekte und Teildisziplinen Als ein Teilgebiet der Informatik und umfasst die Automatische Sprachverarbeitung (ASV) Aspekte • des Information Retrieval und • der Linguistik mit Anwendungen im • Wissensmanagement und • den E-Humanities. Prof. Dr. G. Heyer Modul Linguistische Informatik
Informatik und Linguistik • Informatik als Werkzeug oder Theoriegrundlage • Linguistik mit dem Computer: Unterstützung der Linguisten bei der praktischen Arbeit • Linguistische Informatik: Anwendung von Konzepten und Verfahren der Informatik für die Analyse von Sprache (als System oder Einzelsprache) • formale Sprachen, Parsing, Semantik und Verifikation • informationstheoretische Konzepte, graphentheoretische Modellierung Prof. Dr. G. Heyer Modul Linguistische Informatik
Zwei Traditionen der Linguistischen Informatik • Computerlinguistik • Orientierung an kognitiven Modellen des Sprachverstehens • Grundlage: formale Sprachen und regelbasierte Repräsentationen • Ziel ist die Simulation sprachlicher Prozesse auf dem Computer • Institutionell meist an philologischen Fakultäten angesiedelt, sehr populär in den 90er Jahren, • keine wesentlichen theoretischen oder praktischen Erfolge Prof. Dr. G. Heyer Modul Linguistische Informatik
Zwei Traditionen der Linguistischen Informatik • Sprachprodukttechnologie • Orientierung an empirischen und ingenieurswissen- schaftlichen Verfahren der Sprachbeschreibung • Grundlage: Textdatenbanken, IR, informations- theoretische Modelle, graphbasierte Modellierungen • Ziel ist die computerunterstützte Nutzung von Sprache als wesentliches Mittel des Verstehens und der Kommunikation • Institutionell Teil der Angewandten Informatik, • starker Auftrieb mit wachsender Bedeutung des Internet Prof. Dr. G. Heyer Modul Linguistische Informatik
Anwendungen der Linguistischen Informatik • Informatik für den Computer • Weder Sprachverstehen noch Sprachproduktion sind bisher gelöst. Aber wir besitzen eine Vielzahl von Verfahren, die zwar kein Verstehen ermöglichen, aber für viele Anwendungen oft völlig ausreichen. • flache Ansätze (effizient und robust) • statistische Methoden, Mustergrammatiken • tiefe Ansätze (präzise und korrekt) • linguistische Prinzipien, Constraints oder komplexe Regelwerke Prof. Dr. G. Heyer Modul Linguistische Informatik
Zentrale Einsatzgebiete • Sprachprodukte für das • Informations- und Wissensmanagement • Sprachprodukte für die Dokumentenproduktion und -verwaltung • Sprachprodukte für die • Mensch-Maschine Kommunikation • Sprachprodukte für die • Mensch-Mensch Kommunikation Prof. Dr. G. Heyer Modul Linguistische Informatik
Wichtige Trends • Integration von verschiedenen Medien und Modi in der Kommunikation zwischen Menschen bzw. Mensch und Maschine • Management von großen Mengen multimedialer, multimodaler und multilingualer Information • Schrittweise Entwicklung zu inhaltsbezogenem Umgang mit Information (semantische statt syntaktische Methoden) Prof. Dr. G. Heyer Modul Linguistische Informatik
Literaturempfehlungen • Grewendorf/Hamm/Sternefeld, Linguistisches Wissen, Suhrkamp (stw 695), Frankfurt (13) 2004 • Heyer/Quasthoff/Wittig, Text Mining – Wissensrohstoff Text, • W3L Verlag, Bochum 20082 (auch als E-Learning Kurs) • C.Manning/H.Schütze, Foundations of Statistical Natural Language Processing, MIT Press 2000 • D.Jurafsky/J.Martin, Speech and Language Processing, Prentice Hall, NY 2000 • Computerlinguistik im Internet, u.a. • http://www.sil.org • http://www.aclweb.org Prof. Dr. G. Heyer Modul Linguistische Informatik
Fragestellungen der ASV Daten, Verfahren und Anwendungen Daten Nur Text Hybridtext Vorver-arbeitung Format Verarbeitung Text + Bilder ... ... ... • Tokenisierung • Spelling • Wortnormierung • Segmentierung • ... ... ... • Auszeichnungen • Dateiformate • DB Formate • ... ... ... • Suche • Extraktion • Strukturierung • ... ... ... Prof. Dr. G. Heyer Modul Linguistische Informatik
Verfahren musterbasiert statistisch regelbasiert Fragestellungen der ASV Daten, Verfahren und Anwendungen Information Retrieval (Vector space representations, similarity measures, ...) Machine Learning (Learning algorithms, bootstrapping ...) Graph based methods (Clustering, small worlds ...) Prof. Dr. G. Heyer Modul Linguistische Informatik
Fragestellungen der ASV Daten, Verfahren und Anwendungen Anwendungen Quellenauswahl Analyse Infrastruktur • Schnittstellen • Integration • Web Services • ... ... ... • Selektion • Integration • Segmentierung • ... ... ... • Text & Trend Mining • IR und P2P Systeme • Wissens- und • Content Management • ... ... ... Prof. Dr. G. Heyer Modul Linguistische Informatik
Einige grundlegende Annahmen und Fakten: Text Was ist ein Text? Aus Sicht der ASV: Aneinander gekettete Zeichen und Folgen von Zeichen (bezogen auf ein Alphabet) Möglicherweise in Sätze, Absätze und Kapitel strukturiert Annotiert mit Metadaten (Sprache, Autor, Textsorte, Zeitstempel, Region, ... ) Annahme: Text ist keine zufällige Aneinanderreihung von Zeichen, sondern repräsentiert Wissen (zum Gegenstand des Textes) Durch eine geeignete Analyse von Texten lässt sich das darin enthaltene Wissen extrahieren Prof. Dr. G. Heyer Modul Linguistische Informatik
Zipfsches Gesetz Text folgt grundlegenden statistischen Gesetzmäßigkeiten Das Zipfsche Gesetz: Rang r einer Wortform aus einer häufigkeitssortierten Liste von Wortformen (eines Textes/ einer Sprache) multipliziert mit seiner Häufigkeit n ist in etwa konstant. r n k (mit textabhängiger Konstante k) bzw. ausgedrückt durch indirekte Proportionalität n ~ 1/r Prof. Dr. G. Heyer Modul Linguistische Informatik
Zipfsches Gesetz: Beispiel • Deutscher Wortschatz: • Gilt Zipfsches Gesetz auch für Märchen „Ali-Baba und die 40 Räuber“? Prof. Dr. G. Heyer Modul Linguistische Informatik
Graphische Darstellung Prof. Dr. G. Heyer Modul Linguistische Informatik
Zipfsches Gesetz 2 George K. Zipf: Für natürliche Sprache gilt das „Principle of Least Effort“. Die am häufigsten gebrauchten Wörter sind meist sehr kurze, inhaltsleere Funktionswörter. (vgl. Beispiel: 10 häufigste Wörter aus Projekt Deutscher Wortschatz) Prof. Dr. G. Heyer Modul Linguistische Informatik
Textabdeckung Wenn wir nur N Wörter kennen, welcher Anteil von Text wird dadurch abgedeckt? Prof. Dr. G. Heyer Modul Linguistische Informatik
Anwendungen • Differenzanalyse • Abschätzung über Anzahl an Wortformen, die n mal im Text vorkommen • Abschätzung des Umfangs eines Vokabulars • Abschätzung des Zuwachses eines Vokabulars, wenn sich die Textmenge erhöht • Analyse von Suchanfragen • ... ... ... Prof. Dr. G. Heyer Modul Linguistische Informatik
Terminologie-Extraktion • Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten: Prof. Dr. G. Heyer Modul Linguistische Informatik
Differenzanalyse Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten in einem allgemeinen Referenzwortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. Prof. Dr. G. Heyer Modul Linguistische Informatik
Differenzanalyse 2 Beobachtung: domänenspezifische Terme treten in Texten dieses Fachgebiets häufiger auf, als in der allgemeinen Sprache • Verwendung eines allgemeinen Korpus als reference corpus R (in unserem Fall: Deutscher Wortschatz) • Domänenspezifischer Text T als Grundlage der ATR • Identifiziere Wortformen w die signifikant häufiger in T als in R auftreten (cf. Witschel 2005, 2008) Prof. Dr. G. Heyer Modul Linguistische Informatik
Statistik der Termerkennung • Grundlage ist ein statistitischer Test: • Null-Hypothese: Die Wahrscheinlichkeit eines Auftretens von w ist gleich für T und R • Schätze diese Wahrscheinlichkeiten als relative Häufigkeiten von beiden Textkorpora (maximum likelihood estimate) • Berechne das Maß der Überraschung, wenn diese Werte unter der Null-Hypothese beobachtet werden. • Beispiel: Log-likelihood Prof. Dr. G. Heyer Modul Linguistische Informatik
Link für automatische Terminologie-Extraktion ASV-Verfahren: http://wortschatz.uni-leipzig.de/~fwitschel/terminology.html Prof. Dr. G. Heyer Modul Linguistische Informatik
Bedingte Wahrscheinlichkeit von Wortformen Beobachtung: Wahrscheinlichkeit für das Auftreten einer Wortform hängt im Satz von allen vorangehenden Wortformen ab. Bedingte Wahrscheinlichkeit P(wj|wj) = Wahrscheinlichkeit für das Auftreten der Wortform wj, unter der Voraussetzung, dass die Wortform wi aufgetreten ist. Es gilt: Prof. Dr. G. Heyer Modul Linguistische Informatik
Wahrscheinlichkeit eines SatzesBi- und Trigramme Beobachtung: Beziehungen zwischen den Wortformen eines Satzes stark lokal geprägt. Wortformen sind zu Phrasen gruppiert. • Wahrscheinlichkeit des Auftretens von Wortform wi stark von restlichen Wortformen der gleichen Phrase, weniger stark von Wortformen anderer Phrasen beeinflußt. • Es genügt, die Wahrscheinlichkeit des Auftretens von Wortformen zu approximieren. Nur wenige Vorgänger sind zu berücksichtigen. • ausreichend: Verwendung von lediglich 2 vorausgehenden Wortformen • mehr Vorgänger bringen kaum mehr Genauigkeit, erhöhen jedoch enorm den Rechenaufwand Prof. Dr. G. Heyer Modul Linguistische Informatik
Sprachstatistik • Bi- und Trigramme bilden eine wichtige Grundlage für viele Text Mining Ansätze • Anwendungen insbesondere im Bereich • Tagging • Clustering • Klassifikation • Information/ Relation Extraction Prof. Dr. G. Heyer Modul Linguistische Informatik
Weiterführende Annahmen: Strukturalismus Zwischen den Wörtern in einem Text bestehen zwei grundlegende Beziehungen: syntagmatisch und paradigmatisch Ferdinand de Saussure (1916): In einem System sprachlicher Zeichen (Laute, Morpheme, Wörter usw.) stehen zwei Zeichen in syntagmatischer Relation, wenn sie meist gemeinsam auftreten. Zwei Zeichen stehen in paradigmatischer Relation, wenn sie meist in ähnlichen Kontexten auftreten. Prof. Dr. G. Heyer Modul Linguistische Informatik
Syntagmatische und paradigmatische Relationen Grundlegende semantische Zusammenhängefür bedeutungstragende Zeichen: • Zwei Zeichen, die meist gemeinsam auftreten, ergänzen sich funktional und inhaltlich (Nomen „Sonne“ und Verb „scheinen“) • Zwei Zeichen, die meist in ähnlichen Kontexten auftreten, haben grammatikalisch und inhaltlich eine ähnliche Funktion (Nomen „Sonne“ und das sinnverwandte Nomen „Kerze“) Prof. Dr. G. Heyer Modul Linguistische Informatik
Bestimmung globaler Kontexte KG(satz)={er, e, spiel, helf, …} KG(wort)={es, e, spiel, helf, …} KG(könn)={es, te, auch, ander, …} … Beispiel Ein kurz er Bei spiel satz würd e helf en. Ein klein es Bei spiel wort wär e nütz lich. Ein ander es Bei spiel wort könn te auch helf en. Generierung erster HypothesenÄhnlichkeit über Schwellwert SIM(satz, wort) ? 3 PARA(satz, wort) SIM(satz, könn) ? 0 SIM(wort, könn) ? 0 … Prof. Dr. G. Heyer Modul Linguistische Informatik
Lokaler Kontext Es sei S eine Sprache mit einem nach Häufigkeit geordneten Vollformenlexikon LS = {l1, l2, ... , ln} Satz der Länge n aus S: w1, ..., wi, ..., wk, ..., wn mit wi LS Def. 1: Der lokale Kontext einer Wortform wi sei die Menge von Wortformen, mit denen wi zusammen in einem Satz S auftritt. Def. 2: Die Wortformen wi und wj stehen in syntagmatischer Relation zueinander, wenn es mindestens einen lokalen Kontext gibt, der beide Wortformen enthält. Prof. Dr. G. Heyer Modul Linguistische Informatik
Globaler Kontext Def. 3: Zwei Wörter stehen in statistisch-syntagmatischer Relation, wenn sie in syntagmatischer Relation stehen und dies statistisch signifikant ist. Def. 4: Der globale Kontext einer Wortform sei die Menge aller Wortformen zu denen sie in statistisch-syntagmatischer Relation steht. Def. 5: Zwei Wortformen einer Sprache stehen in paradigmatischer Relation, wenn die globalen Kontexte der Wortformen in Bezug auf ein gegebenes Ähnlichkeitsmaß und einen vorher festgelegten Schwellwert zueinander ähnlich sind. Prof. Dr. G. Heyer Modul Linguistische Informatik
Formalisierung Globaler Kontext • Eine Annäherung an die allgemeine Bedeutung (Semantik) einer konkreten Einheit ai kann nun mit dem globalen KontextKG(ai)formalisiert werden: • KG(ai) ist die Menge der in beliebiger statistisch syntagmatischer Relation SYNS stehender Einheiten mit ai KG(ai) = {aj|SYNS(aj,ai)} Prof. Dr. G. Heyer Modul Linguistische Informatik
Formalisierung Globaler Kontext • Daraus folgt Möglichkeit für einen Vergleich auf semantische Ähnlichkeit: • SIM(KG(ai),KG(aj) ) • denn wenn zwei verschiedene Wörter ähnliche Kontexte besitzen, liegen relevante Gemeinsamkeiten zugrunde • „Gemeinsamkeit“ ist als paradigmatische Relation formalisierbar: • PARA(ai,aj) SIM (KG(ai),KG(aj)) > t Prof. Dr. G. Heyer Modul Linguistische Informatik
Signifikanzmaße • Gegeben Korpus mit n Sätzen • Ein Wort A kommt nA mal vor, Wort B kommt nB mal vor • Jeder Satz ist ein Versuch, bei welchem A mit anderen Wörtern B, C, … vorkommt Gesucht ist Aussage darüber, ob gemeinsames Vorkommen von Wort A mit B insgesamt nAB Mal im gesamten Korpus statistisch signifikant ist. Prof. Dr. G. Heyer Modul Linguistische Informatik
Signifikanzmaße Annahmen: • Signifikanzmaß soll auch Signifikanzstärke liefern • d.h. gesucht ist Aussage, ob z.B. nAB signifikanter als nAC ist • Nicht gesucht ist Aussage, ob nAB signifikanter alsnCDist • d.h. nur lokale Rankings wichtig • Vereinfachende Annahme, dass jeder Satz von jedem anderen unabhängig ist • Ein Wort kommt nur einmal pro Satz vor In der Literatur herrscht Uneinigkeit über die Wahl des ‘richtigen’ Signifikanz- und Ähnlichkeitsmaßes Prof. Dr. G. Heyer Modul Linguistische Informatik
Signifikanzmaße Wahrscheinlichkeit für gemeinsames Auftreten nA, nB Anzahl der Sätze, die A bzw. B enthalten nAB Anzahl der Sätze, die A und B enthalten nges Gesamtzahl der Sätze Tanimoto-Ähnlichkeit (Anteil der Doppeltreffer bzgl. Anteil der Einzeltreffer) simT(A,B) = nAB / (nA+nB-nAB) Mutual information (Abweichung von der statistischen Unabhängigkeit) i(A,B) = log(nAB nges / (nA nB)) [= log(pAB / (pA pB))] Poisson Maß (Wahrscheinlichkeit simultaner seltener Ereignisse) x = nA nB / nges sig(A,B) = x – nAB log x + log nAB! (für 2,5x< nAB ) Prof. Dr. G. Heyer Modul Linguistische Informatik
Graf für „Reis“ Prof. Dr. G. Heyer Modul Linguistische Informatik
Literaturempfehlung Statistische und musterbasierte Textanalyse (Text Mining) • Sprachstatistik • Clustering, Klassifikation • Musteranalyse, Bootstrapping Prof. Dr. G. Heyer Modul Linguistische Informatik