170 likes | 252 Views
8. Repräsentation von Zeit in neuronalen Netzen (KNN mit Speichervermögen). Jörg Krone, Ulrich Lehmann, Hans Brenig, Oliver Drölle. Inhalt. Grundlangen Assoziation von Zeitverhalten Jordan-Netze Elman-Netze Hierarchische Elman-Netze Lernverfahren für partiell rekurrente Netze Fragen.
E N D
8. Repräsentation von Zeit in neuronalen Netzen (KNN mit Speichervermögen) Jörg Krone, Ulrich Lehmann, Hans Brenig, Oliver Drölle 8. Präsentation von Zeit in KNN
Inhalt • Grundlangen Assoziation von Zeitverhalten • Jordan-Netze • Elman-Netze • Hierarchische Elman-Netze • Lernverfahren für partiell rekurrente Netze • Fragen 8. Präsentation von Zeit in KNN
Grundlagen Repräsentation von Zeit in neuronalen Netzen kann, wie bei der Prognose von Zeitreihen gezeigt, mit einfachen Feedforward-Netzen (MLP) erfolgen, wenn: • mit einer Trainingsmustersequenz gearbeitet wird, bei der auch die zeitliche Folge f(t) wesentlich ist • die Reihenfolge der Muster also eine Rolle spielt (siehe Beispiel „Analyse eines Umformprozesses mit KNN) • dabei wird ein Fenster über die Datenfolge = f(t) geschoben (sliding window) und es wird eine Teilfolge von n-Mustern gleichzeitig als Vektor präsentiert • n: die Fenstergröße entspricht der Mindestanzahl von Eingabeneuronen • das dynamische Verhalten von Systemen kann so gelernt werden Damit wurden gute Ergebnisse in der Praxis erzielt. 8. Präsentation von Zeit in KNN
Prinzip der Speicherung mit KNN Ähnlich wie in digitalen Filtern kann die Zeitfunktion auch direkt in partiell rekurrenten Netzen (mit partieller Rückkopplung) gespeichert werden: • sie sind abgeleitet von Feedforward-Netzen • sie enthalten spezielle verdeckte Zellen Kontextzellen • sie besitzen zusätzlich eine Rückkopplungsschleife mit den Kontextzellen • die Rückkopplungen erfolgen in genau definierter Weise (feste Gewichte) • sie können mit geringfügig modifizierten Standardlernverfahren für Feedforward-Netze trainiert werden • die Standardlernverfahren sind wesentlich effizienter als spezielle Lernverfahren für beliebig rekurrente Netze, wie z.B. für Hopfield-Netze • einem partiell rekurrenten Netz wird eine Teilfolge von n-Mustern gleichzeitig als Vektor präsentiert • dabei wird ein Fenster mit n-Mustern über die Datenfolge = f(t) geschoben (sliding window) 8. Präsentation von Zeit in KNN
Architektur Jordan-Netzwerk • Kontextzellen mit der Identität als Aktivierung und festen Gewichtenw = g = 1 speichern den Ausgabezustand o(t-1) (grüne Verbindungen) • die Kontextzellen besitzen weiterhin direkte Rückkopplungen (gelbe Verbindungen), die ebenfalls fest sind w = l = 0,5 bis 1 (nicht trainierbar) • die Anzahl der Kontextzellen (hier 2) ist gleich der Anzahl der Ausgabezellen 8. Präsentation von Zeit in KNN
O(t) I(t) Funktion des Jordan-Netzwerk O(t) = F (S(t) ,I(t) ) S(t+1) = Ğ (S(t) ,O(t) ) S(t) S(t+1) S(t+1) = Ğ (S(t) ,F (S(t) ,I(t) )) Der Folgezustand ergibt sich aus dem aktuellen Zustand der Eingabe 8. Präsentation von Zeit in KNN
Zustandsspeicherung Die Aktivierungsfunktion der Kontextzellen ist die identische Abbildung. Ausgehend von einem Startzustand S0 ergibt sich für den Zustandsvektor S zur Zeit t: S(0) falls t = 1 S(t) = lS(t-1) + gO(t-1) falls t > 1 • Der Wert l steuert das Erinnerungsvermögen des Netzes. Er liegt im Bereich [0,1]. • Für 1 ist der Einfluss der älteren Ausgaben wichtiger. • Ein Wert von l = 0,5 bildet einen Kompromiss zwischen Speicherung der alten Ausgaben und Flexibilität für neue Änderungen. 8. Präsentation von Zeit in KNN
Bewertung Jordan-Netzwerke • ein Jordan-Netz kann zu einem festen Eingabewert eine ganze Ausgabesequenz assoziieren, ähnlich der Antwort von einem digitalen Filter auf eine Testfunktion • mit verschiedenen festen Eingabevektoren können verschiedene Ausgabesequenzen assoziiert werden • Wahl von l: viele Probleme verlangen einerseits ein kleines l 0,5um flexibel auf neue Änderungen zu reagieren, andererseits aber auch einen großen l-Wert nahe 1, um länger zurückliegende Ausgaben zu berücksichtigen • die Kontextzellen erlauben keine Speicherung des internen Zustands der verdeckten Schicht, sondern nur der Ausgaben. • Abhilfe: Verwendung von Elman-Netzen (siehe nächste Folie). 8. Präsentation von Zeit in KNN
Prinzip der Elman-Netze Sie sind eine Modifikation der Jordan-Netze: • Rückkopplung von der verdeckten Schicht zur Kontextschicht • die direkten Rückkopplungen der Kontextschicht zu sich selbst können entfallen l = 0 • die Zahl der Kontextzellen ist gleich der Zahl der verdeckten Zellen • jede verdeckte Zelle besitzt eine Rückkopplungsverbindung der ihr 1:1 zugeordneten Kontextzelle mit festem Gewicht 1,0 • die Kontextzellen besitzen wiederum die Identität als Aktivierungsfunktion. 8. Präsentation von Zeit in KNN
Architektur Elman-Netzwerk • Kontextzellen mit festen Gewichten w = 1 speichern den Zustand o(t-1)(rosa Verbindung) der verdeckten Zellen • die Anzahl der Kontextzellen ist gleich der Anzahl der verdeckten Zellen 8. Präsentation von Zeit in KNN
Funktion der Elman-Netze • Zu Beginn der Verarbeitung werden die Aktivierungen der Kontextzellen auf einen definierten Wert gesetzt • nach Eingabe des ersten Musters der Musterfolge werden die verdeckten Zellen sowohl von den Eingabezellen als auch von den Kontextzellen aktiviert • da die Kontextzellen die Identität als Aktivierungsfunktion besitzen, ergibt sich der neue Zustand als Kopie der Ausgabe der verdeckten Zellen • die verdeckten Zellen propagieren wie üblich zu den Ausgangszellen • beim nächsten Eingabemuster enthalten allerdings die Kontextzellen die Aktivierung (t-1) der verdeckten Zellen • auf diese Weise kann der zeitliche Bezug zu früheren Mustern hergestellt werden 8. Präsentation von Zeit in KNN
Bewertung Elman-Netzwerke • die Eignung des Netzes für eine bestimmte Anwendung ist nicht direkt von der zu erzeugenden Ausgabesequenz abhängig, wie dies bei Jordan-Netzwerken der Fall ist • die internen Zustände (gespeicherte Zustände) ergeben sich aus den Zuständen der verdeckten Zellen • die verdeckten Zellen werden so zu einer Repräsentation des zeitlichen Kontexts gezwungen • die einfachen Elman-Netze besitzen nur eine verdeckte Schicht Neuronen. Für viele komplexe Problemstellungen erzielen jedoch Netze mit mehreren verdeckten Schichten etwas bessere Ergebnisse. • Abhilfe: Hierarchische Elman-Netze mit mehreren Hidden Layern. 8. Präsentation von Zeit in KNN
Architektur hierarchischer Elman-Netze • Kontextzellen(hellblau) mit festen Gewichten w = 1 speichern den Zustand o(t-1) der verdeckten Zellen und in der dritten Schicht auch der Ausgangszellen • die Kontextzellen können direkte Rückkopplungen l besitzen, die ebenfalls fest sind (nicht trainierbar), allerdings für jede Schicht individuelle Werte l1, l2, l3annehmen können • die Anzahl der Kontextzellen ist gleich der Anzahl der verdeckten Zellen plus Ausgangszellen 8. Präsentation von Zeit in KNN
Bewertung Hierarchische Elman-Netze • für komplexe Problemstellungen mit Zeitverhalten (dynamische Systeme) einsetzbar • die Kontextschichten können durch die Wahl unterschiedlicher Parameter li unterschiedliches Speicherverhalten assoziieren • hierarchische Elman-Netze wurden bereits erfolgreich für Prognose von dynamischen Vorgängen in der Biologie und Physik, z.B. Prognose des Intensitätsverlaufs eines chaotisch pulsierenden NH3-Lasers, eingesetzt (siehe auch A. Zell) • das Training ist geringfügig aufwendiger als beim MLP mit Fenstertechnik (siehe auch Beispiel: Analyse von Umformprozessen mit KNN) 8. Präsentation von Zeit in KNN
Lernverfahren für partiell rekurrente Netze Ablauf des Backpropagation-Algorithmus für partielle rekurrente Netze: • Initialisierung Kontextzellen • Für jedes Trainigsmuster erfolgt: • Anlegen des Eingabemusters und Vorwärtspropagierung bis Ausgabe (ohne Beachtung der rekurrenten Verbindungen / Rückkopplung (oBrV)) • Kontextzellen liefern konstant den gespeicherten Zustand t-1 • Vergleich der tatsächlichen Ausgabe mit erwünschter und Fehlerberechnung für jede Ausgabezelle • Backpropagation der Fehlersignale bis zur Eingabe (oBrV) • Berechnung der Gewichtsänderung • Adaption der Gewichte (bei offline-Verfahren außerhalb der Schleife – nur nach jeder Epoche) • Berechnung des Folgezustands t der Kontextzellen gemäß ihrer Eingangsverbindungen. Einziger Schritt mit Beachtung der rekurrenten Verbindungen 8. Präsentation von Zeit in KNN
Fragen Fragen Sie bitte! 8. Präsentation von Zeit in KNN
Danke Vielen Dank für Ihr Interesse! 8. Präsentation von Zeit in KNN