380 likes | 553 Views
Konnektionismus 3. Sitzung (30.10.2008). apl. Prof. Dr. Ulrich Schade. 2 Techniken. Einleitung und Historischer Rückblick Spreading Activation Error-Backpropagation Kohonen-Netze. 2.2 Spreading Activation. Bevor „drei-schichtige“ Perzeptrons diskutiert wurden, ab
E N D
Konnektionismus3. Sitzung (30.10.2008) apl. Prof. Dr. Ulrich Schade
2 Techniken • Einleitung und Historischer Rückblick • Spreading Activation • Error-Backpropagation • Kohonen-Netze
2.2 Spreading Activation Bevor „drei-schichtige“ Perzeptrons diskutiert wurden, ab 1986, erschienen Ende der 70er bzw. Anfang der 80er Jahre so genannte „lokal-konnektionistische Modelle“. Auch diese nutz(t)en Netze bestehend aus • Knoten • Verbindungen • Aktivierung
2.2 Spreading Activation Wir betrachten den Aufbau und die Funktion lokal- konnektionistischer Modelle mit „spreading activation“ an folgendem Beispiel: J.L. McClelland & D.E. Rumelhart (1981). An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 88, 375-407.
2.2 Spreading Activation – Allgemeines Knoten In „spreading activation“-Modellen repräsentieren die Knoten normalerweise Objekte des zu modellierenden Bereichs. Die Knoten sind dabei in Schichten organisiert. Wortknoten Ball Baum Stern Phonemknoten /b/ /m/
2.2 Spreading Activation – Allgemeines Verbindungen Positive (aktivierende) Verbindungen befinden sich zwischen Knoten benachbarter Schichten und entsprechen der „ist Teil von“-Relation. Verbindungen sind in der Regel bidirektional. Wortknoten Ball Baum Stern Phonemknoten /b/ /m/
2.2 Spreading Activation – Allgemeines Verbindungen Negative (hemmende) Verbindungen (laterale Inhibition) befinden sich zwischen Knoten derselben Schicht, sofern diese „konkurrieren“. Auch diese Verbindungen sind in der Regel bidirektional. Wortknoten Ball Baum Stern Phonemknoten /b/ /m/
2.2 Spreading Activation – Allgemeines Verbindungen In einigen Modellen, gibt es auch negative (hemmende) Verbindungen zwischen Knoten benachbarter Schichten, wenn deren gleichzeitiges Vorkommen ausgeschlossen ist. Auch diese Verbindungen sind in der Regel bidirektional. Wortknoten Ball Baum Stern Phonemknoten /b/ /m/
2.2 Spreading Activation – Allgemeines Die Aktivierung eines Knotens liegt zwischen m (minimaler Wert, etwa 0.0) und M (maximaler Wert, etwa 1.0). Verbindungsstärken haben einen Wert zwischen 0.0 und 1.0 (aktivierende Verbindung) bzw. zwischen 0.0 und -1.0 (hemmende Verbindung).
2.2 Spreading Activation – Allgemeines Die Aktivierung des Knotens i zur Zeit tsei ai(t). Das „activation spreading“ erfolgt in Zeitscheiben. Es gilt: ai(t+1) = ai(t)·(1–Θ) + ni(t)·(M – ai(t)), falls ni(t) > 0 ai(t+1) = ai(t)·(1–Θ) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0
2.2 Spreading Activation – Allgemeines Die Aktivierung des Knotens i zur Zeit tsei ai(t). Das „activation spreading“ erfolgt in Zeitscheiben. Die Zeitscheiben sind der Simulation geschuldet. Im Modell geht man zumeist von kontinuierlichen Prozessen aus.
2.2 Spreading Activation – Allgemeines ai(t+1) = ai(t)·(1–Θ) + ni(t)·(M – ai(t)), falls ni(t) > 0 ai(t+1) = ai(t)·(1–Θ) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0 Θist die Zerfallsrate. Sie besagt, wieviel Prozent der Aktivierung eines Knotens in einer Zeitscheibe verfällt. Ist etwa Θ= 0.1, so ist (1–Θ) = 0.9. Damit zerfällt in einer Zeitscheibe 10% der Aktivierung.
2.2 Spreading Activation – Allgemeines ai(t+1) = ai(t)·(1–Θ) + ni(t)·(M – ai(t)), falls ni(t) > 0 ai(t+1) = ai(t)·(1–Θ) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0 ni(t) ist der Nettoinput des Knotens i zur Zeit t. ni(t) = Σwji· a j(t) Dabei ist wji die Verbindungsstärke der Verbindung vom Knoten j zum Knoten i.
M 2.2 Spreading Activation – Allgemeines ai(t+1) = ai(t)·(1–Θ) + ni(t)·(M – ai(t)), falls ni(t) > 0 ai(t+1) = ai(t)·(1–Θ) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0 (M – ai(t)) ist ein Nomierungsfaktor. (M – ai(t)) ai(t)
2.2 Spreading Activation – Allgemeines ai(t+1) = ai(t)·(1–Θ) + ni(t)·(M – ai(t)), falls ni(t) > 0 ai(t+1) = ai(t)·(1–Θ) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0 (ai(t) – m) ist ebenfalls ein Nomierungsfaktor. ai(t) (ai(t) – m) m
2.2 Spreading Activation – Allgemeines ai(t+1) = ai(t)·(1–Θ) + ni(t)·(M – ai(t)), falls ni(t) > 0 ai(t+1) = ai(t)·(1–Θ) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0 Die beiden Nomierungsfaktoren (M – ai(t)) und (ai(t) – m) sorgen dafür, dass der Aktivierungswert ai(t+1) im Intervall [m,M] verbleibt, sofern ni(t) ≤ 1 ist.
2.2 Spreading Activation – Tricks Die Aktivierung eines Knotens liegt zwischen m (minimaler Wert, häufig 0.0, im Beispiel –0.2) und M (maximaler Wert, häufig und im Beispiel 1.0). Knoten haben manchmal einen Ruhewert ri, der dann größer ist als 0.0 und damit auch größer als m. M aktueller Aktivierungswert ri 0.0 m
M ri 2.2 Spreading Activation – Tricks ai(t+1) = ai(t) – Θ· (ai(t) – ri) + ni(t)·(M – ai(t)), falls ni(t) > 0 ai(t+1) = ai(t) – Θ· (ai(t) – ri) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0 Wird ein Ruhewert riverwendet, so ändern sich die Formeln so, wie dies oben angegeben ist. Es zerfällt nur die Aktivierung oberhalb des Ruhewertes. 0 m
2.2 Spreading Activation – Tricks ai(t+1) = ai(t) – Θ· (ai(t) – ri) + ni(t)·(M – ai(t)), falls ni(t) > 0 ai(t+1) = ai(t) – Θ· (ai(t) – ri) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0 Mit Ruhewerten kann man Häufigkeiten repräsentieren. M M „häufig“ „selten“ ri ri 0 0 m m
2.2 Spreading Activation – Tricks Knoten haben manchmal eine Aktivierungsschwelle si. Diese ist größer als der Ruhewert, sofern es diesen gibt. Die Aktivierungsschwelle vereinfacht die Berechnung (technisches Argument) und verringert das „Hintergrund- rauschen“ im Modell und damit „Fehler“ (Modell-Argument). Nur Knoten, deren Aktivierungswert die Aktivierungsschwelle überschritten hat, dürfen „feuern“, also einen Beitrag zu dem Nettoinput der Knoten leisten, auf die sie verbunden sind.
2.2 Spreading Activation – Beispiel J.L. McClelland & D.E. Rumelhart (1981). An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 88, 375-407. Das Modell von Rumelhart und McClelland ist ein Modell zum Sprachverstehen – Lesen – Erkennen von Buchstaben. Es ist kein Modell zum Erkennen von Wörtern!
2.2 Spreading Activation – Beispiel J.L. McClelland & D.E. Rumelhart (1981). An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 88, 375-407. Grundthese: Das Wissen über Wörter beeinflusst positiv das Erkennen von Buchstaben ( der Prozess hat top-down Anteile).
2.2 Spreading Activation – Beispiel • J.L. McClelland & D.E. Rumelhart (1981). • An interactive activation model of context effects in letter perception: • Part 1. An account of basic findings. • Psychological Review, 88, 375-407. • Das Modell hat drei Schichten: • Schicht der Wörter (word level) (Alle Wörter haben vier Buchstaben.) • Schicht der Buchstaben (letter level) • Schicht der Merkmale (feature level)
2.2 Spreading Activation – Beispiel Die Schicht der Merkmale (feature level) 1 2 3 4
2.2 Spreading Activation – Beispiel Die Schicht der Merkmale (feature level) Frage für die Versuchspersonen: Ist der zweite Buchstabe ein R oder ein P? 1 2 3 4 Repräsentation von TRAP auf der Schicht der Merkmale
1 2 3 4 1 2 3 4 2.2 Spreading Activation – Beispiel Nichtwort-Kontext Wortkontext Ist der zweite Buchstabe ein R oder ein P? Vorhersage des Modells: Wortkontext > Pseudowort-Kontext > Nichtwort-Kontext 1 2 3 4 Pseudowort-Kontext
1 2 3 4 2.2 Spreading Activation – Beispiel Frage: Ist der zweite Buchstabe ein R oder ein P? Vorhersage des Modells: R > P Wie kommt das Modell zu den Vorhersagen ?
TRAP TRIP CAVE 2.2 Spreading Activation – Beispiel Aufbau des Netzwerkes p1 p2 r2 a3 r3 r4 t1 k2 2 2 2 2
TRAP TRIP CAVE 2.2 Spreading Activation – Beispiel Ablaufprinzip: Lege an der Merkmalschicht Aktivierung an. Danach kann sich die Aktivierung ausbreiten. p1 p2 r2 a3 r3 r4 t1 k2 2 2 2 2
TRAP TRIP CAVE 2.2 Spreading Activation – Beispiel Ablaufprinzip: Lege an der Merkmalschicht Aktivierung an. Danach kann sich die Aktivierung ausbreiten. p1 p2 r2 a3 r3 r4 t1 k2 2 2 2 2
TRAP TRIP CAVE 2.2 Spreading Activation – Beispiel Ablaufprinzip: Lege an der Merkmalschicht Aktivierung an. Danach kann sich die Aktivierung ausbreiten. p1 p2 r2 a3 r3 r4 t1 k2 2 2 2 2
TRAP TRIP CAVE 2.2 Spreading Activation – Beispiel Ablaufprinzip: Lege an der Merkmalschicht Aktivierung an. Danach kann sich die Aktivierung ausbreiten. p1 p2 r2 a3 r3 r4 t1 k2 2 2 2 2
2.2 Spreading Activation – Beispiel Aufbau des Netzwerkes Verbindungsstärken -0.21 +0.07 -0.04 +0.3 -0.0 -0.0 +0.005 -0.15 -0.0 Sonstiges: M = 1.0 m = -0.2 Θ = 0.07
2.2 Spreading Activation – Beispiel Verbindungsstärken -0.21 +0.07 -0.04 +0.3 -0.0 -0.0 +0.005 -0.15 -0.0 Die Verbindungsstärken sind ziemlich unsinnig und willkürlich (?) gewählt.
2.2 Spreading Activation – Beispiel Verbindungsstärken -0.2 +0.1 (nur zwischen -0.2 Buchstaben gleicher Position) +0.1 -0.0 (keine Konkurrenz) „sinnvolle“ Verbindungsstärken
2.2 Spreading Activation – Beispiel Die Wahl der Verbindungsstärken Ist motiviert durch Probleme in der Verrechnung. Es sind relativ viele Merkmale auf einen Buchstaben verbunden, so dass der Nettoinput an Aktivierung für die Buchstabenknoten zu groß wurde und dadurch die Aktivierungswerte außerhalb de Zielintervalls [m,M] lagen.
2.2 Spreading Activation – Beispiel ai(t+1) = ai(t)·(1–Θ) + ni(t)·(M – ai(t)), ni(t) = Σ wji· aj(t) Dies kann verhindert werden, wenn man kleine Verbindungsstärken wählt, etwa 0.005.