1 / 42

Relative Entropie

Relative Entropie. „Spracherkennung mit zip-Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert. Orientierung an „Language Trees and Zipping“ Benedetto, Caglioti, Loreto 2008. Vergleichsdatenbank mit Referenztexten Französisch Spanisch Englisch Tschechisch ….

Download Presentation

Relative Entropie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Relative Entropie „Spracherkennung mit zip-Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert

  2. Orientierung an„Language Trees and Zipping“Benedetto, Caglioti, Loreto 2008

  3. Vergleichsdatenbank mit Referenztexten Französisch Spanisch Englisch Tschechisch … Textstück unbe-kannter Sprache Zu welchem Text besteht größte Ähnlichkeit? Beispiel Spracherkennung

  4. Tabelle mit Ähnlichkeits-Werten

  5. Messgröße:Relative Entropie • Maß für die Unähnlichkeit von Wahrscheinlichkeitsverteilungen • Grundlegender Begriff der Informationstheorie

  6. Übersicht 0. Einleitung • Entropie • Codierung von Alphabeten / Relative Entropie • Relative Entropie und .zip-Files • Beispieluntersuchung • Ergebnisse und Ausblick

  7. Entropie (1/5)

  8. Entropie • Unordnung wächst • Wahrscheinlichere Zustände treten auf • Gleichverteilung • Einfachere Strukturen • Weniger freie Energie • Weniger Informationsübertragung Hohe Entropie Geringe Entropie

  9. Entropie-zunahme Meine richtige Kamera fiel der Entropie zum Opfer, sorry! www.madebymark.com

  10. In der Informationstheorie betrachten wir die Entropie einer Sequenz.

  11. Entropie einer Sequenz Text als wiederholte Ziehung mit Zurücklegen aus dem Alphabet, Erklärung an der Tafel.

  12. Die Entropie einer Sequenz ist zweifach beschränkt. Beide Extremfälle werden an der Tafel erklärt.

  13. Die Entropie ist zweifach beschränkt: Minimale Entropie Maximale Entropie

  14. Erhöhung der Entropie 40 Stützstellen sigma = 0.0002 Entropie = 1.1976

  15. Erhöhung der Entropie 40 Stützstellen sigma = 0.002 Entropie = 2.8861

  16. Erhöhung der Entropie 40 Stützstellen sigma = 0.02 Entropie = 4.5438

  17. Informationsgehalt eines Elements Viele verknüpft Ereignisse Geringe Shannon-Information Wenig verknüpfte Ereignisse Hohe Shannon-Information Häufigkeit der Buchstaben in einem englischen Text

  18. Codierung von Alphabeten /Relative Entropie (2/5) Morse-Code für verschiedene Sprachen

  19. Morsecode Bildquelle: Wikipedia.de 1 Bit 2 Bit 3 Bit 4 Bit

  20. Die Anzahl der verwendeten Bits wird nach Shannoninformation festgelegt.

  21. Zuteilung der Bits

  22. Umso ähnlicher die Häufigkeitsverteilung, desto effizienter ist die Codierung.

  23. Relative Entropie • Summe gewichteter inverser Häufigkeiten • Gibt den „Abstand“ zweier Wahrscheinlichkeitsverteilungen an • Gutes Maß für die Anpassung einer Codierung

  24. Relative Entropie

  25. Relative Entropie Äquivalent zu Kullback-Leibler-Distanz

  26. Für die Anwendung brauchen wir eine automatisierte Methode.

  27. Praktischer:Chaitin-Kolmogorov-Entropie „Die Entropie einer Sequenz ist die Länge des kürzesten Programms, welches sie erzeugen kann.“

  28. Relative Entropie und .zip-Files (3/5)

  29. Wie komprimieren wir eine Sequenz? • Winzip • gzip • Zipgenius • bzip2 • …

  30. Kompression = Codierung Ursprüngliche Sequenz: 1010010101001101 Wiederkehrende Stücke: 10 1001 010 1001101 Rückverweise: Startpunkt n, Länge l 101001 010 ( n=3, l=4)101

  31. Die Entropie entspricht der Länge der komprimierten Sequenz. Das ist äquivalent zur Dateigröße!

  32. Feststellen der relativen Entropie Δ Größe der gezippten Dateien: s(X) Referenztext A s(A) + t + t Probetext t Referenztext B s(B) + t Referenztext C s(C)

  33. Feststellen der relativen Entropie Δ Größe der gezippten Dateien: s(X) Referenztext A t s(A + t) Δ = s(A + t) – s(A) Referenztext B t s(B + t) Δ = s(B + t) – s(B) Referenztext C t s(C + t) Δ = s(C + t) – s(C)

  34. Vorteile • Einfach zu handhaben • Allgemein anwendbar • Kein Vorwissen über Daten benötigt • Verlässlich

  35. Beispieluntersuchung (4/5)

  36. Beispieluntersuchung • Drei Referenztexte ( ca. 60 kB) • Drei Probestücke ( 2, 3 und 4 kB) • Deutsch, Englisch, Französisch

  37. Normierte relative Entropien

  38. Ergebnisse (5/5)Benedetto, Caglioti, Loreto 2008 • Spracherkennung: Bei 60 kB Referenztext ab 20 Zeichen sicher • Autorenschaft Sicherheit 93,3%

  39. Ausblick • DNA-Analyse • Aktienmärkte • Geologische Zeitserien • Medizinische Untersuchungen

  40. Danke für‘s Durchhalten!

  41. Quellen • D Benedetto, E Caglioti, V Loreto, „Language Trees and Zipping“, Phys. Rev. Lett. 88, 048702 (2002) • D J C MacKay, „Information Theory, Inference, and Learning Algorithms“, Cambridge University Press, 2003

More Related