430 likes | 576 Views
Relative Entropie. „Spracherkennung mit zip-Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert. Orientierung an „Language Trees and Zipping“ Benedetto, Caglioti, Loreto 2008. Vergleichsdatenbank mit Referenztexten Französisch Spanisch Englisch Tschechisch ….
E N D
Relative Entropie „Spracherkennung mit zip-Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert
Orientierung an„Language Trees and Zipping“Benedetto, Caglioti, Loreto 2008
Vergleichsdatenbank mit Referenztexten Französisch Spanisch Englisch Tschechisch … Textstück unbe-kannter Sprache Zu welchem Text besteht größte Ähnlichkeit? Beispiel Spracherkennung
Messgröße:Relative Entropie • Maß für die Unähnlichkeit von Wahrscheinlichkeitsverteilungen • Grundlegender Begriff der Informationstheorie
Übersicht 0. Einleitung • Entropie • Codierung von Alphabeten / Relative Entropie • Relative Entropie und .zip-Files • Beispieluntersuchung • Ergebnisse und Ausblick
Entropie • Unordnung wächst • Wahrscheinlichere Zustände treten auf • Gleichverteilung • Einfachere Strukturen • Weniger freie Energie • Weniger Informationsübertragung Hohe Entropie Geringe Entropie
Entropie-zunahme Meine richtige Kamera fiel der Entropie zum Opfer, sorry! www.madebymark.com
In der Informationstheorie betrachten wir die Entropie einer Sequenz.
Entropie einer Sequenz Text als wiederholte Ziehung mit Zurücklegen aus dem Alphabet, Erklärung an der Tafel.
Die Entropie einer Sequenz ist zweifach beschränkt. Beide Extremfälle werden an der Tafel erklärt.
Die Entropie ist zweifach beschränkt: Minimale Entropie Maximale Entropie
Erhöhung der Entropie 40 Stützstellen sigma = 0.0002 Entropie = 1.1976
Erhöhung der Entropie 40 Stützstellen sigma = 0.002 Entropie = 2.8861
Erhöhung der Entropie 40 Stützstellen sigma = 0.02 Entropie = 4.5438
Informationsgehalt eines Elements Viele verknüpft Ereignisse Geringe Shannon-Information Wenig verknüpfte Ereignisse Hohe Shannon-Information Häufigkeit der Buchstaben in einem englischen Text
Codierung von Alphabeten /Relative Entropie (2/5) Morse-Code für verschiedene Sprachen
Morsecode Bildquelle: Wikipedia.de 1 Bit 2 Bit 3 Bit 4 Bit
Die Anzahl der verwendeten Bits wird nach Shannoninformation festgelegt.
Umso ähnlicher die Häufigkeitsverteilung, desto effizienter ist die Codierung.
Relative Entropie • Summe gewichteter inverser Häufigkeiten • Gibt den „Abstand“ zweier Wahrscheinlichkeitsverteilungen an • Gutes Maß für die Anpassung einer Codierung
Relative Entropie Äquivalent zu Kullback-Leibler-Distanz
Praktischer:Chaitin-Kolmogorov-Entropie „Die Entropie einer Sequenz ist die Länge des kürzesten Programms, welches sie erzeugen kann.“
Wie komprimieren wir eine Sequenz? • Winzip • gzip • Zipgenius • bzip2 • …
Kompression = Codierung Ursprüngliche Sequenz: 1010010101001101 Wiederkehrende Stücke: 10 1001 010 1001101 Rückverweise: Startpunkt n, Länge l 101001 010 ( n=3, l=4)101
Die Entropie entspricht der Länge der komprimierten Sequenz. Das ist äquivalent zur Dateigröße!
Feststellen der relativen Entropie Δ Größe der gezippten Dateien: s(X) Referenztext A s(A) + t + t Probetext t Referenztext B s(B) + t Referenztext C s(C)
Feststellen der relativen Entropie Δ Größe der gezippten Dateien: s(X) Referenztext A t s(A + t) Δ = s(A + t) – s(A) Referenztext B t s(B + t) Δ = s(B + t) – s(B) Referenztext C t s(C + t) Δ = s(C + t) – s(C)
Vorteile • Einfach zu handhaben • Allgemein anwendbar • Kein Vorwissen über Daten benötigt • Verlässlich
Beispieluntersuchung • Drei Referenztexte ( ca. 60 kB) • Drei Probestücke ( 2, 3 und 4 kB) • Deutsch, Englisch, Französisch
Ergebnisse (5/5)Benedetto, Caglioti, Loreto 2008 • Spracherkennung: Bei 60 kB Referenztext ab 20 Zeichen sicher • Autorenschaft Sicherheit 93,3%
Ausblick • DNA-Analyse • Aktienmärkte • Geologische Zeitserien • Medizinische Untersuchungen
Quellen • D Benedetto, E Caglioti, V Loreto, „Language Trees and Zipping“, Phys. Rev. Lett. 88, 048702 (2002) • D J C MacKay, „Information Theory, Inference, and Learning Algorithms“, Cambridge University Press, 2003