470 likes | 632 Views
Die Information Bottleneck Methode. Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02. Gliederung des Vortrags. Wiederholung grundlegenden Begriffe der Informations- und Wahrscheinlichkeitstheorie Teil 1: Berechnung der Rate Distortion Funktion Langrange Verfahren
E N D
Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02
Gliederung des Vortrags • Wiederholung • grundlegenden Begriffe der Informations- und Wahrscheinlichkeitstheorie • Teil 1: Berechnung der Rate Distortion Funktion • Langrange Verfahren • Blahut-Arimoto Algorithmus • Rate Distortion Theorie
Gliederung des Vortrags • Teil 2: Die Information Bottleneck Methode • Idee • Berechnung mittels Langrange Verfahren • Iterativer Algortihmus • Teil 3: Clustering Algorithmen (mit Bezug auf IB) • Deterministic Annealing • Agglomeratives Clustering
Wiederholung: Wahrscheinlichkeitstheorie • Conditional Probability: • Produktregel: • Summenregel (Randverteilungen)
Wiederholung: Wahrscheinlichkeitstheorie • Bayes Theorem: • Markov Kettenregel: • Falls: also • Dann gilt:
Wiederholung: Informationstheorie • Informationsgehalt: • Entropie: • Conditional Entropy
Wiederholung: Informationstheorie • Joint-Entropy: • Kettenregel • Kullback-Leibler Divergenz • „Distanz“ zwischen 2 Verteilungen • Axiome: i.d.R
Wiederholung: Informationstheorie • Mutualinformation: • Wichtiger Zusamenhang • Andere Axiome
Teil 1: Rate Distortion Theorie • Grundaussage: • ... Kodeword • ... Zuordnungswahrscheinlichkeit • D ... Maximal gewünschte Distortion • ... Distortionfunktion (Fehler von ) • ... Erwartete Distortion: • Relevanze der Daten durch Distortion gegeben
Rate Distortion Theorie • Berechnung der Rate Distortionfunktion • Minimierungsaufgabe über : • Unter der Nebenbedingung: • => Langrange Verfahren
Wiederholung: Lagrange Verfahren • Definition (mit Gleichungsrestriktionen) • Optimiere • Unter den Nebenbedingungen • =>Menge der zulässigen Vektoren • Schnittpunkte aller durch die Nebenbedingungen gegebenen Kurven
Geometrische Betrachtung • Im 2-dimensionalen Fall mit 1 Nebenbedingung Höhenlinien von f(x,y) Kein Max. Maximum : Kurve h wird von Höhenlinie tangiert h(x,y) = c
Langrange Verfahren • Erkenntnisse aus geometrischer Betrachtung: • Gradient der Funktion und der Kurve h(x,y) = c müssen in die gleiche (bzw. entgegengesetzte) Richtung zeigen. • => • Resultierender Langrange Ansatz • Optimierbar mittels Nullsetzen des Gradienten
Langrange Verfahren (Gleichungsrestriktionen) • Verallgemeinerung für den n-dimensionalen fall mit m Nebenbedingungen • Ansatz: • Gleichungen: • Vorteil: Einfache Optimierung (grad(L)=0) • Nachteil: Einführen von m ( ) neuen Unbekannten
Lagrange Verfahren mit Ungleichungen • Definition (mit Ungleichungsrestriktionen) • Optimiere • Unter den Nebenbedingungen • Bei Maximierung: • Bei Minimierung
Geometrische Betrachtung • Im 2-dimensionalen Fall mit 1 Nebenbedingung Höhenlinien von f(x,y) Richtung von Gradient von f wichtig: Bei Maximierung aus der Menge heraus,bei Minimierung in die Menge hinein. =>Langrange Multiplikator immer positiv!! g(x,y) < b Maximierungsbereich g(x,y) > b Minimierungsbereich
Langrange Verfahren (Ungleichungsrestriktionen) • Verallgemeinerung für den n-dimensionalen fall mit k Nebenbedingungen • Ansatz: • Gleichungen: • Zusätzliche Einschränkungen bzw.
Minimierung der Rate Distortion Funktion • Minimierung bezüglich • Nebenbedingung: • Vereinfachter Langrangeansatz
Minimierung der Rate Distortion Funktion • 2. Nebenbedingung • Einsetzen der Definitionen Mutual Information Distortion Normierungsterm
Ableitung bezüglich einer Wahrscheinlichkeitsverteilung • Nullsetzen des Gradienten: • Ableitung bezüglich • Betrachtung von als normale Variable (nur für ein bzw. x) • Einsetzen von bekannten Formeln der Wahrscheinlichkeitstheorie um auf die Form zu kommen
Lösung der Langrange Funktion: konsistente Gleichungen • Probleme: • Lösung nur für ein , optimales nicht bekannt. • Langrange Multiplikator für eine bestimmte Distortion D unbekannt.
p*(x) unbekannt: Lösung 1 ^ • Mit p(x) Multiplizieren und über alle x aufsummieren. • => • Für jedes Codewort x eine Gleichung, wenn dann SEHR schwierig lösbar. ^
B A p*(x) unbekannt, 2. Lösung ^ • Algorithmus in der Geometrie • Abwechselndes Minimieren eines Abstandes mittels 2 Variablen, die sich in convexen Mengen befinden.
Blahut-Arimoto Algorithmus • Benötigt werden: • 2 Variablen, welche Abstand minimieren: • Abstandsmaß: • Minimierung bezüglich • => Langrangeverfahren • Minimierung bezüglich • =>Minimiert Randverteilung I ?? • Convexe Mengen von Wahrscheinlichkeitsverteilungen
Convexe Mengen von Verteilungen • Definition von convexen Mengen: • Bei Wahrscheinlichkeitsverteilungen: • Für jedes Erreignis xi wird ein Intervall von Wahrscheinlichkeiten festgelegt
Minimierung bezüglich p(x) ^ Wird minimiert wenn ... Randverteilung
Blahut Arimoto: Iterative Gleichungen • Abwechselnde Optimierung über und • Iterative Gleichungen • Konvergiert zum globalen Minimum • Keine Regel für die Codewords bzw.
Bedeutung des Langrange Multiplikators • Nicht (oder nur schwer) berechenbar für eine gewünschte Distortion • Bestimmt Steigung der R(D) Kurve: • Durch Variieren von kann die R(D) Kurve bei genügend grossen durchlaufen werden • Besondere Werte: • : Codealphabet kollabiert zu einzigen Codeword • : ,Distortion geht gegen 0
Bedeutung des Lagrange Mutliplikators • SoftMax Verfahren • Bei Erhöhung von Beta werden mit kleiner Distortion bevorzugt. • Durchlaufen der R(D) Kurve
Zusammenfassung: Rate Distortion Theorie • Liefert Optimale Rate für gegebene Distortion • Distortion Funktion FREI wählbar • Blahut-Arimoto Algorithmus: • Durchlaufen der R(D) Funktion mittels des Lagrange Multiplikators. • Relevanz der Information wird nur über die Distortion spezifiziert
Teil 2 :Die Information Bottleneck Methode • Idee: Komprimierung mit Bezug auf Relevanz der Daten • Relevanz gegeben durch eine andere Variable • Zusätzlich gegebene Verteilung: • Ziel: Komprimiere X und erhalte dabei die meiste Information von Y • minimieren • maximieren
Langrange Ansatz der I.B.M. • Geometrische Betrachtung: Minimierung von f(x,y) und Maximierung von g(x,y): Beobachtung : => gleicher Langrange Ansatz -grad(f) grad(g) {x*}
Langrange Ansatz der I.B.M. • Vereinfachte Langrange Funktion: • Bedeutung von beta: • Tradeoff zwischen Kompression und Erhaltung der relevanten Daten • siehe Rate Distortion Theory
Lösung der Langrange Funktion • Formale Lösung
Vergleich zu Rate Distortion Theorie • Lösung der Rate Distortion Theory • Lösung der Information Bottleneck Method • =>
Bedeutung der Distortionfunktion • Der begangene Fehler ist der „Abstand“ zwischen den Verteilungen p(y|x) und p(y|x) ^
Der Iterative IB Algorithmus • Die Minimierung wird Unabhängig über die Convexen Mengen von Verteilungen durchgeführt ( , und ), ein allgemeiner BA Algorithmus.
Der Iterative IB Algorithmus • Minimierung bei Iterationsschritt t
Die Informationsebene • Das optimale für ein gegebenes ist eine konkave Funktion impossible Possible phase
Zusammenfassung: Information Bottleneck Methode • Relevanz durch eine zusätzliche Variable • Distortionfunktion: • Iteratver Algorithmus zur Berechnung der optimalen Codeword-zuordnung
Teil 3: Clustering Algorithmen • Agglomeratives Clustering • Beginne mit • Verschmelze bei jedem Schritt 2 Cluster, deren Verschmelzung den grössten Verlust der Rate und den kleinsten Zuwachs der Distortion ergibt • Zuordnungwahrscheinlichkeit für Cluster = 1 (hard clustering) • =>nächster Vortrag
Clustering Algorithmen • Deterministic Annealing • Ansatz: Minimierung der Distortion unter gegebener Unsicherheit • T...symbolisiert Temperatur • Ableiten nach und • Liefert ebenfalls Regel für Adaption der • z.B. für Lage der Codevectoren bei der Squared Error Distortion
Deterministic Annealing: Ableitungen • Ableitung nach • Ableitung nach • Für z.B Squared Error Distortion
Deterministic Annealing: Phasenübergänge • Phasenübergange (Clusterteilung) für bestimmte Cluster • Keine Minimierung der Distortion für diesen Cluster mehr möglich • Teile Cluster: • 2 Möglichkeiten zur Berechnung • Temperatur für jeden Cluster berechenbar (rechenaufwendig) • Für jeden Cluster kann ein zweiter Cluster angelegt werden, falls diese bei abnehmender Temperatur auseinandergehen, dann Phasenübergang
Deterministic Annealing • 1) Beginne mit • Nur ein Cluster (bzw. Wahrscheinlichkeit für jeden Cluster gleich) • 2)Update für • Update • Update (für alle x) • Bis Konvergenz erreicht (BA-Algorithmus) • 3)Abkühlung • 4)Überprüfe für jeden Cluster Phasenübergang • Falls Übergang, Teile Cluster • 5) Gehe zu 3. • Kann jederzeit abgebrochen werden (soft clustering)
Deterministic Annealing: Beispiel (squared error distortion)
Deterministic Annealing: Weitere Anwendungsmöglichkeiten • Noisy Channel Coding • Entropy Constrained Coding • Structural Constrained Coding • Supervised Learning • Berechnung der R(D) Funktion