1 / 66

Lernen und Klassifizieren AS2-2

Lernen und Klassifizieren AS2-2. Stochast . Klassifikation. Lernen linearer Klassifikation. Lernen und Zielfunktion. Lernen in Multilayer -Netzen. Backpropagation-Lernen. Das Perzeptron. Idee: Reize wiedererkennen Rosenblatt 1958. Künstliche Retina Assoziations-Schicht

jorryn
Download Presentation

Lernen und Klassifizieren AS2-2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lernen und Klassifizieren AS2-2 Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  2. Stochast. Klassifikation Lernen linearer Klassifikation Lernen und Zielfunktion Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  3. Das Perzeptron Idee: Reize wiedererkennen Rosenblatt 1958 • Künstliche Retina • Assoziations-Schicht • Response-Schicht j X · · · y · · · R A S • Verbindungen zu A fix (zufällig): x = (x1,...,xn)T = (1(S),...,n(S))T • Stärke der Verbindungen zu R veränderbar: w = (w1,...,wn)T Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  4. Das Perzeptron Entscheiden • := {x} alle Muster,= 1 + 2 1 : Menge aller x aus Klasse 1 2 : Menge aller x aus Klasse 2 Schwelle DEF Log. Prädikat Mit den Erweiterungen x = (x1,...,xn,1)T w = (w1,...,wn,s)T wird Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  5. Das Perzeptron: Pseudo-code 3 DEF numerische Werte PERCEPT3: Wähle zufällige Gewichte w zum Zeitpunkt t:=0. REPEAT t:= t+1; w(t) = w(t–1) +(L(x) – y(x))x(t)Fehler-Lernregel UNTIL (alle x richtig klassifiziert) Sogar ohne Umdefinition der Muster aus 2! Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

  6. Das Perzeptron: Konvergenz Perzeptron - Konvergenztheorem(MinskyPapert 1988) Wenn die Mustermenge ilinear separierbarist, so konvergiert der Algorithmus bei t   Problem: Wenn Klassen sich überlappen, so wird die Grenzlinie bei g = 1 immer hin und her geschoben

  7. Das Perzeptron: Zielfunktion Ziel: Verallgemeinerung der Lernregel Hier: Minimierung aller Fehlentscheidungen DEF Perzeptron-Zielfunktion „Energie“ Neuformulierung erwartetes Lernen: Gradient d.h. Stochast. Lernen

  8. Lernen durch Iteration Gradientenabstieg einer Zielfunktion R(w) w * w ) R ( w ) - ¶ R ( w ) ¶ W ( t w ( t - 1 ) w w := (w(t-1) – w(t)) ~ – wR(w(t–1)) w(t) = w(t–1) – (t) wR(w(t–1)) - 8 - Rüdiger Brause: Adaptive Systeme AS-1, WS 2009 Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  9. Was kann ein Perzeptron ? Erwartung: „Intelligente Leistungen“ durch Wahl von (S) Abbildung der Merkmale auf linear separierbare Mustermengen Perzeptronarten • diameter-limited perceptrons nur Bildpunkte aus einem begrenzten Radius • order-restricted perceptrons von maximal n (beliebigen) Bildpunkten abhängig • random perceptrons eine zufällige Auswahl aller Bildpunkte

  10. Was kann ein Perzeptron ? Topologische Prädikate, z.B. • „X ist ein Kreis“ ? • „X ist eine konvexe Figur“ ? • „X ist eine zusammenhängende Figur“ ? • ... Tatsache: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) dieser Arten Tatsache: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) dieser Arten Nur „X hat Eulerzahl E“ E(X) : = K(X) – Anzahl der Löcher Nur „X hat Eulerzahl E“ E(X) : = K(X) – Anzahl der Löcher

  11. Was kann ein Perzeptron ? Eulerzahl E E(X) : = K(X) – Anzahl der Löcher K(X) : = zusammenhängende Komponenten Loch := zusamm. Komponente der komplementären Menge K(x) = 2, Löcher = 1  E(x) = 1

  12. Was kann ein Perzeptron ? Beispiel: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) für Prädikat „X ist Typ A“ möglich mit „diameter-limited“ Perzeptron Typ A Muster 2 Muster 1 Nicht Typ A Muster 4 Muster 3

  13. Was kann ein Perzeptron ? Beweis: offen: Typ A Nicht Typ A

  14. Adaline: Aktivität Schwellwert - regler w 0 Quantisierer S(z) Ausgabe y d Summierer Regler Fehleranzeige Schalterfeld für Eingabemuster Lehrer - Schalter für gewünschte Ausgabe Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

  15. Adaline: Aktivität Verlauf des Klassifizierungsfehlers für „Klasse T liegt vor“ bei Präsentationen von T,G,F und sofortiger Nachregelung Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

  16. Adaline: Lernalgorithmus Minimierung des erwartetenquadratischen Fehlers R(w,L) := (z(x) – L(x))2x= (wTx – L(x))2x durch Anpassung der Parameter w(t) = w(t–1) – (t)R(w(t–1)) w(t) = w(t-1) –(t)(wTx–L(x))xstochastische Approximation w(t) = w(t–1) –(t)(wTx–L(x)) Widrow-Hoff Lernregel

  17. Übersicht: Lernen Assoziativspeicher 1. Muster xk eingespeichert wi(1) = Likxk(Hebb‘sche Regel) Perzeptron wi(t) = wi(t-1) + (Li(x)-yi)x (Fehler-Lernregel) wi(1) = (Li(xk)-yi)xk = Likxk bei wi(0) = 0  yik(0) = 0. Adaline wi(t) = wi(t-1) + (t)(L(x)-zi)x(Gradientenabstieg) wi(1) = (Li(xk)-zi)xk = Likxk bei wi(0) = 0  zik(0) = 0. Assoziativspeicher = Grundfunktion von Netzen

  18. Lernen und Zielfunktionen Lernen linearer Klassifikation Stochast. Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  19. Übersicht Lernarten • Beispiel-basiertes Lernen (example based learning, feedback learning) Gegeben: ( Eingabex, gewünschte AusgabeL) Ziel: Differenz zwischen y und L im Laufe des Lernens klein machen. • Erklärungs-basiertes Lernen (explanation based learning EBL) Gegeben: Beispielpaare,Ziel sowie Regeln, es zu erreichen. Lernen: Generalisierung der Beispiele. (regelbasierte Systeme, nicht bei neuronalen Netzen) • Score-basiertes Lernen (reinforcement learning) Gegeben: skalares Gütemaß ("gut", "schlecht", mit Abstufungen dazwischen) für Lernleistung. Lernen: ??Der Lernende muss daraus selbst sehen, was an der Ausgabe zu ändern ist. • Unüberwachtes Lernen (observation based learning, emotion based learning, similarity learning) Gegeben: keineexplizite Rückmeldung über die Güte seines Lernens Lernen: Vergleich gewünschte Auswirkungen mit beobachteten Auswirkungen. Folgerung für geeignete Verhaltensänderung.

  20. Lernen durch Iteration Modifikationen Gradientenabstieg • Taylorentwicklung f(x+Dx)= f(x) + Dx+(Dx)2 + ... R(w+w)– R(w) = wR(w)Tw + ½wTRw + ... mit R = Hesse-Matrix • Conjugate gradient R(w+w)– R(w) = (wR(w)T+ ½wTR) w = 0 löse n-dim Gleichungssystem für w

  21. t w t Lernen durch Iteration Newton-Iteration F(w) f(w) f’(w ) t f’(wt) = f(w ) = w* w w t+1 wt+1 = wt – Newton-Verfahren wt+1 = wt –

  22. (w(t)) = wR(w) < 0 Lernen durch Iteration Konvergenz des Gradientenverfahrens Es ist R(t) =Ljapunov-Funktionmit Konvergenz, wenn • R(t+1) <R(t) bzw. < 0 monoton fallend • Ex. endliches R0<R(t) für jedes t Ljapunov-Bedingung Also: Wenn dann Konvergenz Hinreichend dafür:= – wR(w) mit  > 0 weil = – (wR(w))2< 0 Mit  und t = 1ist w(t) – w(t-1) = – wR(w) Gradientenabstieg

  23. F ( w ) a | w - w * | + b w * w f ( x , w ) Stochastische Approximation Gesucht: Nullstelle einer stochast. Funktion f(x,w) = R‘(x,w) Methode 1: Alle Ereignisse x abwarten und dann F(w) = f(x,w)xbilden w(t) = w(t-1) – (t) F(w(t-1)) Methode 2: Einfach f(x,w) verwenden Robbins, Monro 1951 w(t) = w(t-1) – (t) f(w(t-1),x(t))stochastische Approximation

  24. Stochastisches Lernen Lernen mit Zielfunktion R(w) =r(w,x)x w(t) = w(t-1) - (t) w R(w(t-1)) wird ersetzt durch Lernen mit stochast. Zielfunktion r(w,x) w(t) = w(t-1) - (t) w r(w(t-1),x(t))stochastisches Lernen

  25. Stochastische Approximation Voraussetzungen das klein Gedruckte... • die Funktion F(w) := f(x,w)x ist zentriert, d.h. F(w*) = 0 • F(w) ist ansteigend, d.h. F(w<w*) < 0, F(w>w*) > 0 . • F(w) ist beschränkt mit |F(w)| < a|w-w*|+b < a,b > 0 • f(x,w) hat endliche Varianz, d.h. 2(w) = (F(w) - f(x,w))2x< • (t)verschwindet, (t)  0 • (t)wird nicht zu schnell klein= • (t) wird nicht zu groß 2 <  Dann ex. (w(t) – w*)2 = 0mittl. quadr. Konv. Robbins-Monro P( w(t) = w*) = 1Blum

  26. Stochastische Iteration: Konvergenz Beispiel Sei die Zufallsvariable x gegeben, geschätzt durch w. Abweichung bei der Schätzung ist R(w) = r(w,x)x = (w-x)2x mean squared error w(t) = w(t-1) - (t) wr(w(t-1),x(t)) stoch. Gradient w(t) = w(t-1) - (t)(w(t-1)-x(t)) Zeitabhängigkeit R(w)  R(w*) bei w  w* stoch. und erwarteter Verlauf?

  27. Stochastische Iteration: Konvergenz Stochastische Iteration wi(t) = wi(t-1) - (t)(wi(t-1)-x(t)) Behauptung Bei(t) := 1/ t ist immer w(t) = xx Beweis durch vollständige Induktion w(0)  0 Kap.2.3.2 • w(t=1) = 0 - (t)(0-x) = x = xxInduktionsverankerung Mit w(t-1) = xt-1= Induktionsvoraussetzung • giltw(t)= ... = xtInduktionsschritt q.e.d.

  28. Konvergenzverlauf x = 1

  29. Erwarteter Konvergenzverlauf RechnungAnhang D.4 • mittl. quadrat. Abweichung • ErwartungswertallerVerläufe • AbweichungdurchStandardabweichungbeschreibbar  |w* - w(t)|  = t = x / t

  30. Konvergenzverlauf Abweichung w*(t) w* = 1, x= 0,288

  31. Stochastisches Lernen Beispiel Klassentrennung wi(t) = wi(t-1) - (t)(wi(t-1)-x(t)) Behauptung Bei(t) := 1/ t ist immer w(t) = xxKlassenprototyp Beweis durch vollständige Induktion w(0)  0 Problem: xx ist abhängig von der Klassenentscheidung für x

  32. Lernen und Zielfunktionen Lernen linearer Klassifikation Stochast. Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  33. Stochastische Musterklassifikation Grundsituation der Erkennung w w Muster x 1 1 w w w w w P ( ) P ( | ) P ( | ) X X 2 i i i 2 mit P(x) . . . . . . w w empfangen M M Quelle, Sender Empfänger a priori a posteriori Notation: Mustermenge  = {x}, unterteilt in Klassen i k = "Klasse k liegt vor " Klassifikation k: P(k|x) = maxj P(j|x) Bayes-Klassifikation Wie erhaltenwirP(j|x) ? - 33 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  34. Stochastische Klassifikation P(j|x) = ? Bekannte Quellen Seia-priori P(j), P(x|j), P(x) bekannt und P(x, j) = P(j|x)P(x) = P(x|j)P(j) so ist P(j|x) = P(x|j)P(j) / P(x) mit P(x) = jP(x|j)P(j) Aufgabe ! UnbekannteQuellen A-posteriori P(j|x) lernen ! Zielfunktion: Messung der Klassifikationsleistung? - 34 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  35. Klassifikationsleistung Diagnose-Situation (Diagnose, Realität)NameWahrscheinlichkeit (D(x) =  | ) SensitivitätTP PK= P(D(x) = | ) (D(x) = | ) IgnoranzFP PI = P(D(x) = | ) (D(x) = | ) Fehlalarm FN PA= P(D(x) = | ) (D(x) = | )Spezifität FPPL= P(D(x) = | ) PK + PI = 1 FP = FRR falserejection rate PA + PL= 1 FN = FAR falseacceptance rate

  36. Klassifikationsleistung Diagnose-Situation („confusion matrix“)

  37. ROC -Kurven von Diagnosesystemen Wechselseit. Abhängigkeit Sensitivität / Spezifität Beispiel med. DiagnoseLeistung eines Diagnosesystems Receiver Operating Characteristic(ROC) Spezifität PL= f(PK) EER Sensitivität • Area UnderCurve (AUC)

  38. ROC -Kurven von Diagnosesystemen Aufgabe: Ex. einDiagnosesystemmit D(x) > c Klasse A liegtvor D(x) < c Klasse A liegtnichtvor Frage: Wiewird ROC und AUC davongemessen? Antwort: • Fürfestes c überalle x die Leistung (Pk ,PL ) messen, einenPunkt der Grafikeinzeichnen • c variieren, und jeweilsPunktzeichnen • ROC in die Punkteeinpassen, AUC davonberechnen

  39. Lernen und Zielfunktionen Lernen linearer Klassifikation Stochast. Klassifizierung Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  40. Das XOR-Problem Aufgabe Trennung zweier Klassen durch eine Gerade – wie ? x 0 ={ } = {(0,0), (1,1)} 2 1 1 ={ } = {(1,0), (0,1)} Klassen nicht linear separierbar! 0 0 x 1 1 Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

  41. _ x y := x OR 1 1 2 _ x 1 y := OR x 2 2 y := y ANDy XOR 1 2 Þ w = w = w = w = 1/3 1 4 5 6 w = - =w 1/3 2 3 s1=s2=0, s = 1/2 Das XOR-Problem Lösung Trennung durch zweiSchichten x y= (x1 x2) negiertes XOR = (x1ORx2) AND (x1OR x2) 2 1 0 0 x 1 1 z.B. formalebinäreNeuronen • S(z>s) = 1, S(z<s) = 0 Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

  42. Multilayer-Klassifikation Separierung von Klassen 1.Neuron 2.Neuron 3.Neuron

  43. Sigma-Funktion F: Fähigkeiten der Multilayer-Netzwerke Approximationsnetze Interpolation anhand von Beispielen (Stützstellen) Typ. Netz Linearkombinationen von Basisfunktionen S(.) wobei { z | z(x) = w(1)Tx+b } affine Funktionenn Sist Quetschfunktion

  44. Fähigkeiten der Multilayer-Netzwerke Satz Hornik, Stinchkombe, White 1989 Für die Funktionswerte jeder beliebigen Funktion f(x) : n von N Mustern x1.. xN ex. eine Sigma-Funktion F, so dass für alle Muster xi mit i = 1..N gilt F(xi) = f(xi) Gilt auch für Schicht {Fi} Assoziativspeicher Satz Jede beliebige, stetige Funktion f(x) in einem kompakten Intervall ("kompakte Teilmenge des n ") kann beliebig dicht(uniform dicht im Sinne der Ls-Norm in der Menge Cn aller stetigen Funktionen und p-dicht in der Menge der Borel meßbaren Funktionen) durch eine Sigma-Funktion F(x) approximiert werden Anmerkung: Gilt auch für S = stetig, begrenzt, nicht-konstant (RBF)

  45. Fähigkeiten der Multilayer-Netzwerke Frage: Wieviel Schichten muss ein Netzwerk mindestens haben, um eine beliebige Funktion beliebig gut zu approximieren? ? Antworten: • eine • zwei • drei • unendlich viele

  46. x y 1 f 1 1 x 2 y 2 f 2 y x n n Mehrschichten-Netze Fähigkeiten von Mehrschicht-Netzen nicht-linear linear Eingabe z.B. DNA, Patienten-daten, Roboter-sensoren Ausgabe z.B. Struktur, Diagnose, Roboter-bewegung • Ein 2-Schichtennetzwerk mit nicht-linearer Ausgabefunktion S(z) kann JEDE beliebige Funktion so genau wie gewünscht approximieren, wenn genügend Neuronen ex. Neuronenzahl gegeben. Lernalgorithmus=?

  47. Lernen und Zielfunktionen Lernen linearer Klassifikation Stochast. Klassifizierung Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

  48. Backpropagation Netzarchitektur und Aktivität Eingabe hidden units Ausgabe x Gesamtaktivität

  49. (2) y (1) (2) y x = (2) (2) d L y (1) - d Backpropagation-Grundidee Netzarchitektur und Lernen Schichtweise Verbesserung durch Rückführung des Fehlers Eingabe 1.Schicht 2.Schicht Ausgabe (1) x Ausgabe hidden units units

  50. Backpropagation-Lernregel letzte Schicht wi (t+1)=wi (t) -gGradienten-Lernregel wij (t+1)=wij (t) - g (yi(wij)-L(x))stoch. Approximation mit = Lernziel: R(w*) = min E(y(w) - L(x))2min.mittl. quadr. Fehler Mit i := - (yi(wij)-L(x)) S‘(zi) ist wij(x) = i xjDelta-Regel

More Related