840 likes | 1.05k Views
Lernen und Klassifizieren AS2-2 . Stochast . Klassifikation. Assoziativspeicher. Lineare Klassifikation. Lernen linearer Klassifikation. Lernen und Zielfunktion. Lernen in Multilayer -Netzen. Backpropagation-Lernen. Neuro-Modell des Assoziativspeichers. Funktion:
E N D
Stochast. Klassifikation Assoziativspeicher Lineare Klassifikation Lernen linearer Klassifikation Lernen und Zielfunktion Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Neuro-Modell des Assoziativspeichers Funktion: Jede Komp.ist lin. Summe zi = wix Nichtlin. Ausgabe: yi = SB(zi) = Lernen von W ? - 3 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Lernen im Assoziativspeicher y = Wxr = z =rLr(xr)Txr + • Speichern aller N Muster mit Hebbscher Regel • Auslesen eines Musters r assoziierte Antwort + Übersprechen von anderen Mustern • Orthogonale Muster xr: Übersprechen = 0, exakte Reproduktion. • Nicht-orthogonale Muster: Schwellwerte nötig zum Unterdrücken des Übersprechens. - 4 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Trennung mehrerer Klassen Problem: Klassenentscheidung über Korrelationsgröße x2 xq xp x1 Entscheidung über x: Klasse p: xxp > xxq Klasse q: xxp < xxq Frage: x = xp: In welche Klasse? Antwort: in Klasse q ! Lösung (x-y)2 = x2 -2xy +y2 ist minimal xy ist maximal genau dann, wenn Konstante Länge c = |x|=|y| (normierte Musteraktivität) - 6 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Trennung mehrerer Klassen Erweiterung der Mustertupel x X‘ = (x0 , x1, x2, ..., xn)mit |x‘|= const weilx20= c2 – |( x1, x2, ..., xn)|2> 0(!) Einbettung in den Hyperraum Beispiel: 2-dim 3-dim x3 c Entscheidung durch cos (a)= =c–2 xTxr cos(a) monoton fallend Winkel als Distanzmaß min a max Korrelation x xr xp a x2 xq xk x1 - 7 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Assoziativspeicher: Speicherkapazität M Tupel (x,y) gegeben: Wie viele können zuverlässig gespeichert werden? x1= x2 =...= xM: nur ein Muster speicherbar. y1= y2 =...= yM: beliebig viele Muster speicherbar, da Antwort y immer richtig. Problem der Kodierung der Muster ! Sei |x| = a. • Maximaler Musterabstand • max d(xp,xq) = min xpxq = 0 bei orthogonalen Mustern • Reelle Komponenten: n Dimensionen n orthogonale Basisvektoren • Binäre Komponenten: • Mmax = z.B. n=100, a=10, also max M=10 • Mittlere Abstand maximal z.B. n = 100 max M 2n/n-0.5 1029 - 8 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Assoziativspeicher: Binärspeicher Spärliche Kodierung Binäre Muster Konstante Zahl von 1 durch eine Leitung pro Eingabecode Speichern: wij = Vp yipxjp = maxp yipxjp Kapazität: HB = ln 2 = 0,693 Bit pro SpeicherzellePalm 1980 vergleichbar mit CAM-Speicher Kodierung k = ax = ld m j = ay = O(log n) CAM vs. Ass.matrix - 9 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Stochast. Klassifikation Assoziativspeicher Lineare Klassifikation Lernen linearer Klassifikation Lernen und Zielfunktion Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Klassenbildung heute Objekte werden durch Merkmale beschrieben z.B. qualitativ Mensch = (groß, braune Augen, dunkle Haare, nett, ...) quantitativMensch = (Größe=1,80m, Augenfarbe=2, Haarfarbe=7, ...) Idee = Form = „Klassenprototyp“ Trennung von Klassen Blütensorte 1 Blütensorte 2 Muster eines Objekts (Breite, Höhe) = x Höhe Klassenprototyp c 1 c 2 Breite Klassifizierung = Ermitteln der Geradengleichung bzw Parameter c1,c2. - 11 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Höhe x2 Mit z = = wTx c 1 c 2 Klassenentscheidung y = S(z) = Breite x1 Klassentrennung Klassentrennung durch Trenngerade mit f(x1) = x2= w1x1+w3 z<0 z=0 bzw. z = w1x1+w2x2+w3x3 = 0 z>0 mit x3 := 1 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
x1 x2 SB(z) y = 0: Klasse 1 y = 1: Klasse 2 x3 ... xn-1 Klassenentscheidung y = SB(z) = 1 z = = wTx Klassentrennung durch formales Neuron Klassentrennung durch binäres Neuron z =wTx
Trennung mehrerer Klassen • DEF Lineare Separierung Seien Muster x und Parameter w gegeben. Zwei Klassen 1 und 2 des Musterraums = 12 mit 12 = heißen linear separierbar, falls eine Hyperebene {x*} existiert mit g(x*) = wTx* = 0, so daß für alle x1 gilt g(x)<0 und für alle x2 gilt g(x)>0. Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
ALSO : WIE erhalten wir die richtigen Gewichte, d.h. die richtige Klassifizierung ? Lernen ! Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Stochast. Klassifikation Assoziativspeicher Lineare Klassifikation Lernen linearer Klassifikation Lernen und Zielfunktion Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Das Perzeptron Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Das Perzeptron Idee: Reize wiedererkennen Rosenblatt 1958 • Künstliche Retina • Assoziations-Schicht • Response-Schicht j X · · · y · · · R A S • Verbindungen zu A fix (zufällig): x = (x1,...,xn)T = (1(S),...,n(S))T • Stärke der Verbindungen zu R veränderbar: w = (w1,...,wn)T Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Das Perzeptron Entscheiden • := {x} alle Muster,= 1 + 2 1 : Menge aller x aus Klasse 1 2 : Menge aller x aus Klasse 2 Schwelle DEF Log. Prädikat Mit den Erweiterungen x = (x1,...,xn,1)T w = (w1,...,wn,s)T wird Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Das Perzeptron: Pseudo-code 3 DEF numerische Werte PERCEPT3: Wähle zufällige Gewichte w zum Zeitpunkt t:=0. REPEAT t:= t+1; w(t) = w(t–1) +(L(x) – y(x))x(t)Fehler-Lernregel UNTIL (alle x richtig klassifiziert) Sogar ohne Umdefinition der Muster aus 2!
Das Perzeptron: Konvergenz Perzeptron - Konvergenztheorem(MinskyPapert 1988) Wenn die Mustermenge ilinear separierbarist, so konvergiert der Algorithmus bei t Problem: Wenn Klassen sich überlappen, so wird die Grenzlinie bei g = 1 immer hin und her geschoben
Gradientenabstieg Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Lernen durch Iteration Gradientenabstieg einer Zielfunktion R(w) w * w ) R ( w ) - ¶ R ( w ) ¶ W ( t w ( t - 1 ) w w := (w(t-1) – w(t)) ~ – wR(w(t–1)) w(t) = w(t–1) – (t) wR(w(t–1)) - 23 - Rüdiger Brause: Adaptive Systeme AS-1, WS 2009 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Das Perzeptron: Zielfunktion Ziel: Verallgemeinerung der Lernregel Hier: Minimierung allerFehlentscheidungen mit L=1 DEF Perzeptron-Zielfunktion „Energie“ Neuformulierung erwartetes Lernen: Gradient d.h. Stochast. Lernen
Perzeptronleistungen Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Was kann ein Perzeptron ? Erwartung: „Intelligente Leistungen“ durch Wahl von (S) Abbildung der Merkmale auf linear separierbare Mustermengen Perzeptronarten • diameter-limited perceptrons nur Bildpunkte aus einem begrenzten Radius • order-restricted perceptrons von maximal n (beliebigen) Bildpunkten abhängig • random perceptrons eine zufällige Auswahl aller Bildpunkte
Was kann ein Perzeptron ? Topologische Prädikate, z.B. • „X ist ein Kreis“ ? • „X ist eine konvexe Figur“ ? • „X ist eine zusammenhängende Figur“ ? • ... Tatsache: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) dieser Arten Tatsache: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) dieser Arten Nur „X hat Eulerzahl E“ E(X) : = K(X) – Anzahl der Löcher Nur „X hat Eulerzahl E“ E(X) : = K(X) – Anzahl der Löcher
Was kann ein Perzeptron ? Eulerzahl E E(X) : = K(X) – Anzahl der Löcher K(X) : = zusammenhängende Komponenten Loch := zusamm. Komponente der komplementären Menge K(x) = 2, Löcher = 1 E(x) = 1
Was kann ein Perzeptron ? Beispiel: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) für Prädikat „X ist Typ A“ möglich mit „diameter-limited“ Perzeptron Typ A Muster 2 Muster 1 Nicht Typ A Muster 4 Muster 3
Was kann ein Perzeptron ? Beweis: offen: Typ A Nicht Typ A
Adaline Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Adaline: Aktivität Schwellwert - reglerw 0 Quantisierer S(z) Ausgabe y d Summierer Regler Fehleranzeige Schalterfeld für Eingabemuster Lehrer - Schalter für gewünschte Ausgabe Rüdiger Brause: Adaptive Systeme AS-1, WS 2013
Adaline: Aktivität Verlauf des Klassifizierungsfehlers für „Klasse T liegt vor“ bei Präsentationen von T,G,F und sofortiger Nachregelung
Adaline: Lernalgorithmus Minimierung des erwartetenquadratischen Fehlers R(w,L) := (z(x) – L(x))2x= (wTx – L(x))2x durch Anpassung der Parameter w(t) = w(t–1) – (t)R(w(t–1)) w(t) = w(t-1) –(t)(wTx–L(x))xstochastische Approximation w(t) = w(t–1) –(t)(wTx–L(x)) Widrow-Hoff Lernregel
Übersicht: Lernen Assoziativspeicher 1. Muster xk eingespeichert wi(1) = Likxk(Hebb‘sche Regel) Perzeptron wi(t) = wi(t-1) + (Li(x)-yi)x (Fehler-Lernregel) wi(1) = (Li(xk)-yi)xk = Likxk bei wi(0) = 0 yik(0) = 0. Adaline wi(t) = wi(t-1) + (t)(L(x)-zi)x(Gradientenabstieg) wi(1) = (Li(xk)-zi)xk = Likxk bei wi(0) = 0 zik(0) = 0. Assoziativspeicher = Grundfunktion von Netzen
Stochast. Klassifikation Assoziativspeicher Lineare Klassifikation Lernen linearer Klassifikation Lernen und Zielfunktion Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Übersicht Lernarten • Beispiel-basiertes Lernen (example based learning, feedback learning) Gegeben: ( Eingabex, gewünschte AusgabeL) Ziel: Differenz zwischen y und L im Laufe des Lernens klein machen. • Erklärungs-basiertes Lernen (explanation based learning EBL) Gegeben: Beispielpaare,Ziel sowie Regeln, es zu erreichen. Lernen: Generalisierung der Beispiele. (regelbasierte Systeme, nicht bei neuronalen Netzen) • Score-basiertes Lernen (reinforcement learning) Gegeben: skalares Gütemaß ("gut", "schlecht", mit Abstufungen dazwischen) für Lernleistung. Lernen: ??Der Lernende muss daraus selbst sehen, was an der Ausgabe zu ändern ist. • Unüberwachtes Lernen (observation based learning, emotion based learning, similarity learning) Gegeben: keineexplizite Rückmeldung über die Güte seines Lernens Lernen: Vergleich gewünschte Auswirkungen mit beobachteten Auswirkungen. Folgerung für geeignete Verhaltensänderung.
Lernen durch Iteration Modifikationen Gradientenabstieg • Taylorentwicklung f(x+Dx)= f(x) + Dx+(Dx)2 + ... R(w+w)– R(w) = wR(w)Tw + ½wTRw + ... mit R = Hesse-Matrix • Conjugate gradient R(w+w)– R(w) = (wR(w)T+ ½wTR) w = 0 löse n-dim Gleichungssystem für w
t w t Lernen durch Iteration Newton-Iteration F(w) f(w) f’(w ) t f’(wt) = f(w ) y = w w* w w t+1 wt+1 = wt – Newton-Verfahren wt+1 = wt –
(w(t)) = wR(w) < 0 Lernen durch Iteration Konvergenz des Gradientenverfahrens Es ist R(t) =Ljapunov-Funktionmit Konvergenz, wenn • R(t+1) <R(t) bzw. < 0 monoton fallend • Ex. endliches R0<R(t) für jedes t Ljapunov-Bedingung Also: Wenn dann Konvergenz Hinreichend dafür:= – wR(w) mit > 0 weil = – (wR(w))2< 0 Mit und t = 1ist w(t) – w(t-1) = – wR(w) Gradientenabstieg
F ( w ) a | w - w * | + b w * w f ( x , w ) Stochastische Approximation Gesucht: Nullstelle einer stochast. Funktion f(x,w) = r‘(x,w) Methode 1: Alle Ereignisse x abwarten und dann F(w) = f(x,w)xbilden w(t) = w(t-1) – (t) F(w(t-1)) Methode 2: Einfach f(x,w) verwenden Robbins, Monro 1951 w(t) = w(t-1) – (t) f(w(t-1),x(t))stochastische Approximation
Stochastisches Lernen Lernen mit Zielfunktion R(w) =r(w,x)x w(t) = w(t-1) - (t) w R(w(t-1)) wird ersetzt durch Lernen mit stochast. Zielfunktion r(w,x) w(t) = w(t-1) - (t) w r(w(t-1),x(t))stochastisches Lernen
Stochastische Approximation Voraussetzungen das klein Gedruckte... • die Funktion F(w) := f(x,w)x ist zentriert,d.h. F(w*) = 0 • F(w) ist ansteigend, d.h. F(w<w*) < 0, F(w>w*) > 0 • F(w) ist beschränkt mit |F(w)| <a|w-w*|+b < a,b > 0 • f(x,w) hat endliche Varianz,d.h. 2(w) = (F(w) - f(x,w))2x< • (t)verschwindet, (t) 0 • (t)wird nichtzuschnell klein= • (t) wird nichtzu groß 2 < Dann ex. (w(t) – w*)2 = 0mittl. quadr. Konv. Robbins-Monro P( w(t) = w*) = 1Blum
Stochastische Iteration: Konvergenz Beispiel Sei die Zufallsvariable x gegeben, geschätzt durch w. Abweichung bei der Schätzung ist R(w) = r(w,x)x = (w-x)2x mean squared error w(t) = w(t-1) - (t) wr(w(t-1),x(t)) stoch. Gradient w(t) = w(t-1) - (t)(w(t-1)-x(t)) Zeitabhängigkeit R(w) R(w*) bei w w* stoch. und erwarteter Verlauf?
Stochastische Iteration: Konvergenz Stochastische Iteration w(t) = w(t-1) - (t)(w(t-1)-x(t)) Behauptung Bei(t) := 1/ t ist immer w(t) = xx Beweis durch vollständige Induktion w(0) 0 Kap.2.3.2 • w(t=1) = 0 - (t)(0-x) = x = xxInduktionsverankerung Mit w(t-1) = xt-1= Induktionsvoraussetzung • giltw(t)= ... = xtInduktionsschritt q.e.d.
Konvergenzverlauf x = 1
Erwarteter Konvergenzverlauf RechnungAnhang D.4 • mittl. quadrat. Abweichung • ErwartungswertallerVerläufe • AbweichungdurchStandardabweichungbeschreibbar |w* - w(t)| = t = x / t
Konvergenzverlauf Abweichung w*(t) w* = 1, x= 0,288
Probleme Stochastisches Lernen Beispiel Klassentrennung wi(t) = wi(t-1) - (t)(wi(t-1)-x(t)) Behauptung Trotz (t) := 1/ t ist der Klassenprototyp wi(t) ≠ xx Warum ?
Stochast. Klassifikation Assoziativspeicher Lineare Klassifikation Lernen linearer Klassifikation Lernen und Zielfunktion Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2013
Stochastische Musterklassifikation Grundsituation der Erkennung w w Muster x 1 1 w w w w w P ( ) P ( | ) P ( | ) X X 2 i i i 2 mit P(x) . . . . . . w w empfangen M M Quelle, Sender Empfänger a priori a posteriori Notation: Mustermenge = {x}, unterteilt in Klassen i k = "Klasse k liegt vor " Klassifikation k: P(k|x) = maxj P(j|x) Bayes-Klassifikation Wie erhaltenwirP(j|x) ? - 51 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2013