1 / 34

Konnektionismus 5. Sitzung (13.11.2008)

Konnektionismus 5. Sitzung (13.11.2008). apl. Prof. Dr. Ulrich Schade. 2 Techniken. Einleitung und Historischer Rückblick Spreading Activation Error-Backpropagation Kohonen-Netze. 2.3 Error-Backpropagation. heute: „entweder oder“ Beispiel Probleme und Tricks

vinny
Download Presentation

Konnektionismus 5. Sitzung (13.11.2008)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Konnektionismus5. Sitzung (13.11.2008) apl. Prof. Dr. Ulrich Schade

  2. 2 Techniken • Einleitung und Historischer Rückblick • Spreading Activation • Error-Backpropagation • Kohonen-Netze

  3. 2.3 Error-Backpropagation heute: • „entweder oder“ • Beispiel • Probleme und Tricks • Behandlung von Sequenzen (Jordan-Elman-Netze)

  4. 2.3 Error-Backpropagation – „entweder oder“ Das Perzeptron konnte kein „entweder oder“ nachbilden (und damit auch nicht erlernen). Netzwerke mit drei Schichten (und dem Error-Backpropagation-Algorithmus) sind im Gegensatz zum Perzeptron dazu in der Lage. Um dies zu zeigen, führen wir allerdings noch einen „Trick“ ein, den wir schon bei lokal-konnektionistischen Netzen mit „spreading activation“ gesehen haben: Die Nutzung von Aktivierungsschwellwerten.

  5. 2.3 Error-Backpropagation – „entweder oder“ Aktivierungsschwellwert Ein Knoten feuert nur dann, wenn seine Aktivierung seinen Aktivierungsschwellwert überschreitet. (In dem Fall feuert er mit der Stärke von 1.0.) Wir unterscheiden also für jeden Knoten den Nettoinput den Aktivierungswert und den Output (0.0 oder 1.0).

  6. 2.3 Error-Backpropagation – „entweder oder“ Ein Netzwerk, das das „entweder oder“ repräsentiert: out Quelle: Marcus, G.F. (2001). The Algebraic Mind: Integrating Connectionism and Cognitive Science. Cambridge, MA: MIT Press. (Seite 16) -1.0 1.0 h 2 h 1 1.0 0.5 0.5 1.0 in 2 in 1

  7. out -1.0 1.0 h 2 h 1 1.0 0.5 0.5 1.0 in 2 in 1 2.3 Error-Backpropagation – „entweder oder“ Aktivierungsschwelle für alle Knoten: 0.7

  8. 2.3 Error-Backpropagation – Beispiel Das Beispiel bezieht sich auf den kognitiven Prozess des lauten Lesens. Die Eingabe besteht also aus (einer Sequenz von) Graphemen und die Ausgabe aus (einer Sequenz von) Phonemen. Ursprünglicher Artikel: Seidenberg, M.S. & McClelland, J.L. (1989). A distributed, developmental model of word recognition and naming. Psychological Review, 96, 523-568.

  9. 2.3 Error-Backpropagation – Beispiel Das im Beispiel dargebotene zum lauten Lesen sieht (im Prinzip) wie folgt aus: Zwischenschichten Im Artikel wird nur der lila Anteil per Simulation realisiert. (Der Rest ist auch schwieriger.)

  10. 2.3 Error-Backpropagation – Beispiel Das Gegenmodell dazu wurde aus dem so genannten „Logogen-Modell“ entwickelt. Die Variante, die letztlich wesentlich zur wissenschaftlichen Diskussion beigetragen hat, stammt von Coltheart, M., Curtis, B., Atkins, P. & Haller, M. (1993). Models of reading aloud: Dual-route and parallel distributed processing. Psychological Review, 100, 589-608.

  11. 2.3 Error-Backpropagation – Beispiel Das Gegenmodell heißt auch „Dual Route Model“, weil es drei Routen hat. Konzepte semantische Route Input- Lexikon Output- Lexikon lexikalische Route Orthographischer Input Phonologischer Output GPK

  12. 2.3 Error-Backpropagation – Beispiel Im Modell von Seidenberg und McClelland werden die GPK und die lexikalische Route zusammengefasst. (Dieses Modell hat zwei Routen, darum heißt es Ein-Routen-Modell.) Semantik Kontext semantische Route Input- Lexikon Output- Lexikon Orthographischer Input Phonologischer Output GPK + lexikalische Route

  13. 2.3 Error-Backpropagation – Beispiel In der Simulation gibt es dann die drei Schichten • orthographische Eingabeschicht (400 Knoten) • Zwischenschicht (100 / 200 Knoten) • phonologische Ausgabeschicht (460 Knoten)

  14. 2.3 Error-Backpropagation – Beispiel Idee: Simulation „Lernen von Lesen“ Das Netz lernt einige der Wörter zu lesen und generalisiert dann.  Erkenntnisgewinn zum „Lernen von Lesen“

  15. 2.3 Error-Backpropagation – Beispiel Idee: Simulation „Lernen von Lesen“ Das Netz lernt einige der Wörter zu lesen und generalisiert dann.  Erkenntnisgewinn zum „Lernen von Lesen“ (Das könnte man machen; machen wir aber nicht.)

  16. 2.3 Error-Backpropagation – Beispiel stattdessen: Simulation „Oberflächen-Dyslexie“ Das Netz lernt zunächst. Dann werden Verbindungen entfernt (Läsionen).  Erkenntnisgewinn zur „Dyslexie“ Wenn wir mit unterschiedlichen „Rehabilitationssets“ arbeiten, um das laute Lesen neu zu lernen, erhalten wir Hypothesen dazu, wie man Dyslexie behandeln sollte.

  17. 2.3 Error-Backpropagation – Beispiel Evaluationskriterien: • Lesen von Nichtwörtern Mensch 93% Übereinstimmung Modell 65% Übereinstimmung (Modell hat zu wenig Wörter gelernt.) • Läsion (Oberflächendyslexie)

  18. 2.3 Error-Backpropagation – Beispiel Probleme Generell: • Wie viele Knoten hat die Zwischenschicht ? • Was repräsentiert die Zwischenschicht ? • Das Lernen ist unstetig. • Das Lernen ist problematisch, wenn „zwischendurch“ das Trainingsset verändert wird.

  19. 2.3 Error-Backpropagation – Beispiel Problem: Wie viele Knoten hat die Zwischenschicht ? Zu wenig Knoten  Wichtige Merkmale können nicht repräsentiert werden. Zu viele Knoten  Es findet keine Generalisierung mehr statt.

  20. 2.3 Error-Backpropagation – Beispiel Problem: Wie viele Knoten hat die Zwischenschicht ? Das Problem kann mittels „evolutionärer“ Verfahren in (wichtigen) Einfällen angegangen werden, was aber mit erheblichem zusätzlichen Rechenaufwand verbunden ist. Im Beispiel wurde eine Version mit 100 und eine mit 200 Knoten getestet.

  21. 2.3 Error-Backpropagation – Beispiel Problem: Was repräsentiert die Zwischenschicht ? In einigen Fällen kann die Antwort hierauf durch Verfahren wie Clusteranalyse gefunden werden.

  22. 2.3 Error-Backpropagation – Beispiel Problem: Das Lernen ist unstetig. Lösung / Trick: „Trägheit“ wxy (t+1)= wxy (t)+ Δwxy (t+1) Δwik (t+1)= α·Δok·hi + η·Δwik (t) Δwji (t+1)= α·Δhi·ej + η·Δwji (t) mitηals Trägheitsterm(z.B. 0.9)

  23. 2.3 Error-Backpropagation – Beispiel Problem (speziell für dieses Modell) Wie werden Sequenzen im Input und im Output repräsentiert ? Die Lösung von Seidenberg und McClelland: „Wickelfeatures“ Wickelgren, W.A. (1969). Context-sensitive coding, associative memory, and serial order in (speech) behavior.Psychological Review, 76, 1-15.

  24. 2.3 Error-Backpropagation – Beispiel Wickelfeatures Schritt 1: Wickelgrapheme bzw. Wickelphone Tripel aus Graphemen bzw. Phonemen: [MAKE]  {[#MA], [MAK], [AKE], [KE#]} /mAk/ {[#mA], [mAk], [Ak#]}

  25. 2.3 Error-Backpropagation – Beispiel Probleme • Bei 26 Buchstaben und dem # benötigt man 272·26Knoten für die Inputschicht (= 18954 Knoten). (#Wickelphone = 392·38 = 57798) • Wörter wie „Arara“, in denen ein Graphem- bzw. Phonemtripel mehrfach auftritt, sind nicht repräsentierbar.

  26. 2.3 Error-Backpropagation – Beispiel Wickelfeatures Um die Knotenanzahl zu reduzieren, werden in einem zweiten Schritt die Wickelgrapheme und die Wickelphone in Wickelfeatures umgewandelt. Das „Arara“-Problem ist selten und bleibt ungelöst.

  27. 2.3 Error-Backpropagation – Beispiel Wickelfeatures für Wickelphone Merkmal Konsonant Vokal Artikulationsort Artikulationsort Artikulationsart Höhe Stimmhaftigkeit Länge

  28. 2.3 Error-Backpropagation – Beispiel Wickelfeatures (schummeln) von /mAk/: front-front-back nasal-front-stop voiced-front-unvoiced front-low-back nasal-low-stop voiced-low-unvoiced front-long-back nasal-long-stop voiced-long-unvoiced Die „Kontextfeature“ entstammen immer derselben Dimension. Es gibt etwa 800 Wickelfeature für Phoneme. Angeblich kommen nur 460 vor.

  29. 2.3 Error-Backpropagation – Beispiel Wickelfeatures (schummeln) von /mAk/: front-front-back nasal-front-stop voiced-front-unvoiced front-low-back nasal-low-stop voiced-low-unvoiced front-long-back nasal-long-stop voiced-long-unvoiced Die „Kontextfeature“ entstammen immer derselben Dimension. Es gibt etwa 800 Wickelfeatures für Phoneme. Angeblich kommen nur 460 vor.

  30. 2.3 Error-Backpropagation – Beispiel Das Modell nutzt (über die Wickelfeature) eine verteilte („distributed“) Repräsentation: Jedes Wort wird durch mehrere Knoten repräsentiert. Jeder Knoten ist an der Repräsentation mehrerer Wörter beteiligt. Das verwendete Lernset hatte 2900 Wörter. Die Ergebnisse ließen vermuten, dass das Set aber noch zu klein war.

  31. 2.3 Error-Backpropagation – Beispiel Das Modell wurde weiterentwickelt, insbesondere von Plaut; wir werden darauf noch zurückkommen. Zunächst einmal sehen wir uns eine sinnvollere Methode an, Sequenzen zu repräsentieren.

  32. 2.3 Error-Backpropagation – Beispiel Idee: Die Inputschicht hat 26 Knoten, einen für jeden Buchstaben. Die Knoten werden in der richtigen Reihenfolge aktiviert, und das Netz läuft über entsprechend viele (oder mehr) Zyklen.

  33. 2.3 Error-Backpropagation – einfache rekurrente Netze Elman-Netz oder auch „Simple Recurrent Network“ (SRN) Elman, J. (1990). Finding Structure in Time. Cognitive Science, 14, 179-211. Ausgabeschicht Zwischenschicht copy Eingabeschicht Kontext

  34. 2.3 Error-Backpropagation – einfache rekurrente Netze Vorfassung: Jordan-Netz Jordan, M.I. (1986). Attractor dynamics and parallelism in a connectionist sequential machine, Proceedings of the 8th Conference on Cognitive Science, Amherst, MA, USA, 531-546. Ausgabeschicht Zwischenschicht copy Eingabeschicht Kontext

More Related