110 likes | 205 Views
Themen Übung 11. unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank. Einschub: Unterschied zwischen supervised und unsupervised Methoden. Komplettes supervised cross-language retrieval system: Manuell gebaut Regeln für Wort- und Satzsegmentierung in Quell- und Zielsprache
E N D
Themen Übung 11 • unsupervised vs. supervised • Symbolfolgen, Kunstsprachen • Page Rank Seminar Textmining WS 06/07
Einschub: Unterschied zwischen supervised und unsupervised Methoden • Komplettes supervised cross-language retrieval system: • Manuell gebaut Regeln für Wort- und Satzsegmentierung in Quell- und Zielsprache • Manuell erstellte Parses für Sätze und darauf trainierter Parser • Übersetzung der Suchterme in Zielsprache • Erweiterung durch Thesaurus • Abfrage des automatisch erstellten Indexes nach Suchtermen, evtl. in gegebener syntaktischer Konstruktion • Dagegen unsupervised: • Wort- und Satzsegmentierung einmal für Quellsprache erstellt, evtl. Fehlerhaft bei Abkürzungen in Zielsprache • Automatisch induzierter Parser – keine Labels für syntakt. Beziehungen • Übersetzen der Suchterme in Zielsprache anhand automatisch induziertem Wörterbuch • Erweiterung durch semantisch ähnliche Wörter berechnet aus Korpus in Zielsprache • Abfrage des Indexes nach Suchtermen Seminar Textmining WS 06/07
Supervised-unsupervised • Suprevised Systeme haben in ihren Ausgangsdaten deutlich weniger Fehler, aber schlechtere Abdeckung • Abdeckung sowohl was Vokabular angeht, als auch Verwendung • Supervised Parser basieren auf künstlicher Vorstellung über in Sprache existierender Grammatik und können sich nicht an neue Daten anpassen, da diese erst manuell geparst werden müssten • Unsupervised Systeme inhärent Domänenabhängig • Was ist eigentlich Domäne? • Unsupervised Systeme lernen nur die Grammatik, die sie sehen, dafür lernen sie prinzipiell von jedem Satz, auch von den, die sie gerade frisch neu gesehen haben. Seminar Textmining WS 06/07
Symbolfolgen und Kunstsprachen • Wozu überhaupt Kunstsprachen? Seminar Textmining WS 06/07
Symbolfolgen und Kunstsprachen • Wozu überhaupt Kunstsprachen? • Wenn ein Modell komplex genug ist, alle Phänome aufzuweisen, hat man gesamtes System verstanden (modelliert) • Dienen als Grundlage für Messungen statistisch signifikanter Abweichungen: Unabhängigkeitsannahme nimmt zufällige Verteilung von z.B. Wörtern und erlaubt Messungen von signifikanten Abweichungen davon • Bewusstes auslassen konkreter Faktoren ermöglicht es, diese wie mit einem Filter einzeln zu untersuchen Seminar Textmining WS 06/07
Modellierungen • Perfekte Abhängigkeit von aufeinanderfolgenden Symbolen lässt sich komplett mit Markov-Folgen modellieren. • Aufgabe: Lässt sich das einfache EinMalEins per Markov-Folgen modellieren? • lässt sich natürliche Sprache mit unendlichen Markov-Folgen modellieren? • Modellierung dieser Abhängigkeiten durch Wahrscheinlichkeiten • Dagegen: Bernoulli-Folgen • Würfel mit n Seiten, jeder Wurf ist vom vorhergehenden unabhängig. • Perfekt beschrieben durch Markov-Modell mit n Zuständen (jeder Zustand ist je eine Seite), wo von jedem Zustand exakt gleiche Wahrscheinlichkeit zu jedem anderen führt • Experiment würde zu keiner sign. Abweichung führen Seminar Textmining WS 06/07
Einfache Markov-Folge • Gegeben sei einfache Folge von n verschiedenen Zahlen, wo auf eine gerade stets eine ungerade Zahl führt und umgekehrt. Die nächsthöhere gerade/ungerade Zahl ist dabei doppelt so wahrscheinlich wie die nächstniedrigere. • Stellen Sie für n=6 die Übergangswahrscheinlichkeitsmatrix auf. • Wie gross ist der notwendige Kontext, um diese Sprache perfekt durch Markov-Modell zu beschreiben? • Weitere Begriffe: Topologische Markov-Folgen? • Wichtige Unterscheidung: • Wahrscheinlichkeit für Symbole • Wahrscheinlichkeit für Übergänge zwischen Symbolen (n-gramme ggfs. als Approximation dafür) • Wahrscheinlichkeit für Übergänge zwischen Zuständen eines generierenden Automaten (Hidden-Markov-Models) Seminar Textmining WS 06/07
Affen schreiben auf Schreibmaschine Modellierung von Sprache • Idee: Wenn man Zufallsgenerator Wörter oder Sätze generieren lässt, irgendwann kommt doch ein richtiger neuer Satz oder richtiges Wort heraus! • Jeder Buchstabe zu jedem Zeitpunkt gleichwahrscheinlich • Ergibt das Zipfverteilung von Wörtern? Wenn nein, welche Verteilung entsteht? • Bessere Modellierung (Christian Biemann’s Word and Sentence Generator) Seminar Textmining WS 06/07
PageRank • Ursprüngliche Idee (Brin & Page 98 „The anatomy of a large-scale hypertextual Web search engine “) ist, dass eine Seite umso wichtiger ist, je mehr Links darauf zeigen • Verfeinerung: Je wichtiger eine Seite ist, umso wichtiger der Link. • D.h. ein einziger Link einer wichtigen Seite kann mehr wert sein, als 1000 Links von unwichtigen Seiten • Das heisst aber auch, dass die Berechnung rekursiv ist! • Wie könnte man das also nicht-rekursiv berechnen? Seminar Textmining WS 06/07
Berechnung von PageRank • Einfaches Nachverfolgen der immer wichtigsten Link führt zu folgendem Problem: • In einem Graphen mit 5 Knoten und einem Kreis mit 3 Knoten würde sich evtl. nur der Kreis die ganze Zeit selbst aktualisieren • und immer wichtiger machen… • Lösung: Zufälliges Springen auf irgend eine andere Seite während dem Aktualisierungsprozess • Berechnen Sie den PageRank für alle Webseiten des folgenden Graphen: B A F D E C Seminar Textmining WS 06/07