230 likes | 421 Views
Wykład 12 Neuropsychologia komputerowa. Pamięć I Włodzisław Duch UMK Toruń Google: W Duch. Pamięć jest istniejącym przez pewien czas efektem doświadczenia. Uwagi ogólne.
E N D
Wykład 12 Neuropsychologia komputerowa Pamięć I Włodzisław Duch UMK Toruń Google: W Duch
Pamięć jest istniejącym przez pewien czas efektem doświadczenia. Uwagi ogólne • Pamięć pozornie jest jednolita, ale w rzeczywistości bardzo zróżnicowana: przestrzenna, wzrokowa, słuchowa, rozpoznawcza, deklaratywna, semantyczna, proceduralna, jawna, utajona ... • Tu badamy mechanizmy, więc podstawowy podział to: • Pamięć synaptyczna (fizyczne zmiany w synapsach), długotrwała i wymagająca aktywacji by wywrzeć jakiś wpływ na działanie. • Pamięć dynamiczna, aktywna, chwilowe pobudzenia, wpływa na bieżące działanie. • Torowanie długotrwałe, oparte na pamięci synaptycznej, ulegającej szybkiej modyfikacji – pamięć semantyczna i proceduralna są wynikiem powolnych procesów. • Torowanie krótkotrwałe, oparte na pamięci aktywnej.
PC – tylna kora ciemniowa i kora ruchowa; rozproszenie rep, pamięć przestrzenna, torowanie długotrwałe, skojarzenia, wnioski, schematy. FC – kora przedczołowa, izolowane rep, kontrola przerwań, p. robocza. HC – formacja hipokampa, pamięć 3 regiony • epizodyczna, przestrzenna, deklaratywna, rzadkie reprezentacje, dobra • separacja wzorców. • Uczenie powolne, statystycznie istotnych zależności => pamięć proceduralna i semantyczna, korowa, PC. • Uczenie szybkie => pamięć epizodyczna, HC. • Utrzymywanie aktywnej informacji i jednocześnie przyjmowanie nowej, np. mnożenie w pamięci 12*16, wymaga FC.
Neuron uczy się prawdopodob. warunkowego, korelacji pomiędzy pożądaną aktywnością a sygnałami wejściowymi; optymalna wartość 0.7 osiągana jest szybko tylko przy małej stałej uczenia 0.005 Wolne/szybkie uczenie • Każde przeżycie to mały fragment niepewnej potencjalnie przydatnej wiedzy o świecie => stabilność obrazu świata wymaga powolnego uczenia, integracja prowadzi do zapominania indywidualnych zdarzeń. • Istotne nowe informacje uczymy się po jednokrotnej ekspozycji. • Lezje formacji hipokampa wywołują amnezję następczą. • System neuromodulacji osiąga kompromis stabilności/plastyczności.
Rozproszone nakładające się reprezentacje w PC mogą sprawnie zapisać informacje o świecie, ale jest mało precyzyjne i zaciera się z upływem czasu. FC – kora przedczołowa, przechowuje izolowane reprezentacje; zwiększa stabilność pamięci. Efekty torowania są widoczne u osób z uszkodzonym hipokampem, torowanie korowe w PC jest możliwe. Aktywna pamięć i torowanie • Wiele form torowania, tu wyróżnimy: • trwanie (krótkie, długie), • typ informacji (wzrokowa, leksykalna), • podobieństwo (powtarzanie, semantyczne).
Typowe: dopełnianie rdzeni, po przeczytaniu listy na której są słowa dostajemy rdzenie i trzeba do nich dopisać końcówki, np. rea--- Jeśli wcześniej na liście było „reason” to jest zwykle wybierane. Odstęp czasu może być rzędu godziny, więc pamięć aktywna nie może być za to odpowiedzialna, musi to być pamięć synaptyczna. Homofony: read, reed. Krótkotrwałe torowanie semantyczne – dopełnianie brakującej informacji: "It was found that the ...eel is on the ...", w którym ostatnie słowo to „orange, wagon, shoe, meal” słyszany jest jako: "peel is on the orange", "wheel is on the wagon", "heel is on the shoe" "meal is on the table". Polskie przykłady? Torowanie
Projekt wt_priming.proj, z rozdziału 9. Drobne zmiany wag => zmiany preferencji odpowiedzi. Czy pojedyncza prezentacja wystarczy by wpłynąć na długotrwałą pamięć opartą na siłach połączeń synaptycznych w obszarze PC? Nie uczymy się jeszcze list AB-AC, tylko badamy wpływ douczania na zachowanie sieci w podobny sposób. Model torowania Sieć: 3 warstwy, każda 5x5 Chcemy zbadać, jak dla homofonów pojedynczy krok uczenia wpływa na zachowanie sieci. Uczenie: skojarzenia A-B0, A-B1 Po nauczeniu sieć odpowiada na wejście A raz B0, raz B1 Dodatkowa ekspozycja to zmieni.
View Events: zdarzenia mają te same wzorce wejściowe i_a=i_b, ale inne wyjściowe i_a, i_b, dla i = 0..12. W sumie 13 par x 2 wyjścia = 26 kombinacji, i_a – i_b. Uczenie: Leabra, ok. 45 epok. Czemu da się tego nauczyć? BP tego nie potrafi, ale kombinacja kWTA + Hebb + CHL się uczy. Torowanie 1 Dodatkowo niewielki szum dodany do potencjału neuronu pomaga przełamać impasy, ale powoduje też pewien brak stabilizacji już nauczonych wzorców. Po nauczeniu sieć powinna przypadkowo wybierać raz a, raz b.
Ocena wyniku treningu: Badamy minimalną odległość od najbliższego wzorca, sumujemy po wszystkich 13 wzorcach (czarna linia, sum min dist), sieć zbiega się do pożądanych wzorców. Błąd=0 jeśli dostajemy jeden z dwóch możliwych wzorców, 1 jeśli dostajemy inny (czerwona linia, sum both err). Eksploracja modelu Test_logs: najpierw sprawdzimy czy są jakieś tendencje, a potem czy da się nauczyć sieci by po prezentacji pary (i_a, i_b) zaczęła preferować jedno ze skojarzeń, np.: homofon: obużona: lit: obu żona, oburzona.
Chcemy sprawdzić czy jedna dodatkowa ekspozycja coś zmieni. WtPrimeTest robi jeden krok (step) lub całą epokę (run). Fazy eksp: 1. Statystyka: closest_name jest albo i_a, albo i_b, a name_err =0 lub 1, przypadkowo, ale both_err=0, czyli zawsze jedno z dwóch o_a lub o_b. W tabelce AllTrialTestOutputData można znaleźć indywidualne decyzje, w EpochTestOutputData wyniki przed/po prymowaniu przez a i b. W sumie ~ połowy (~7) a i połowy b, ale mogą być słabe odchylenia. 2. WtPrimeTest pokazuje nauczonej sieci jednokrotnie tylko (i_a, o_a), sprawdza statystykę sum_name_err pokazując na wejściu wszystkie i_a; potem powtarza to samo douczając (i_b, o_b) i testując, w sumie 4 testy. 3. Dla a dostajemy np. przed 10 a po prymowaniu 4 błędy (b 9, 5), za drugim razem 8,1 i 12,6, tendencja do takiej samej odpowiedzi wzrosła. Kora ciemieniowa może być odpowiedzialna za długotrwałe torowanie. Testy torowania
Ludzie potrafią się nauczyć dwóch list, par słów A-B, a potem A-C, np. okno-rozum rower-śmieci .... a potem: okno-pociąg rower-chmura bez większej interferencji, wypadając dobrze w testach dla AB i AC. Sieci z samą korekcją błędów zapominają katastroficznie! Interferencja wynika z używania tych samych elementów i wag by nauczyć się różnych asocjacji. Trzeba używać różne jednostki, lub uczyć z kontekstem. Uczenie AB-AC
Projekt ab_ac_interference.proj View Events_AB, Events_AC, Wyjście: raz B, raz C, ale kontekst = lista 1 lub lista 2 pomaga rozróżnić.Kontekst = fluktuacje wzorca 1 lub 2. Replikacja katastroficznego uczenia: Wyniki: EpochOutputDataGraph, linia czarna = błędy w trakcie uczenia na AB, czerwona = testy na AB/AC po epoce. Model AB-AC 10 wzorców, batch powtarza 5 razy. Test pokazuje, że po nauczeniu AC (epoka 8) sieć całkiem zapomina wcześniej nauczone skojarzenia AB, bo wiele jednostek warstwy ukrytej bierze udział w uczeniu obu list.
BatchOutputData pokazuje, że po nauczeniu do zera błędów na AB liczba błędów po nauczeniu AC wzrasta do 10 za każdym razem. Czy da się tego nauczyć? hid_kwta 12=>4 by zmniejszyć l. aktywnych elementów. Test, ale bez zmian. Zwiększyć wariancję wartości początkowych wt_var 0.25=>0.4 Silniejszy wpływ kontekstu fm_context 1=>1.5 Uczenie Hebbowskie hebb 0.01=>0.05 Zmniejszyć szybkość uczenia lrate => 0.1, Batch Nic tu wyraźnie nie pomaga, chociaż katastrofa ulega osłabieniu ... Potrzebne są wyraźnie dwa odmienne systemy uczenia, szybki i powolny – kora i hipokamp. Model AB-AC
Anatomia i połączenia struktur formacji hipokampa: sygnały docierają z jedno i wielomodalnych obszarów skojarzeniowych przez węchomózgowie (EC). Hipokamp
Obustronne połączenia z: opuszką węchową, korą oczołodołową, korą wyspy, górnym zakrętem skroniowym, korą zakrętu obręczy. Reprezentacje w CA3 i CA1 są skupione na specyficznych bodźcach, podczas gdy w podporze i korze węchomózgowia są mocno rozproszone. Więcej anatomii
Model uwzględnia struktury: zakręt zębaty (DG), obszary CA1 i CA3, korę węchomózgowia (EC). Pct Act = % aktywności. Formacja hipokampa
Projekt hip.proj Sygnały wejściowe wchodzą przez węchomózgowie (EC_in), do zakrętu zębatego DG i obszaru CA3, DG wpływa również na CA3, gdzie mamy rzadkie reprezentacje, separujące ostro otrzymane sygnały. CA3 ma silne połączenia wewnętrzne. Model hipokampa CA1 ma nieco bardziej rozproszone reprezentacje => EC_out. EC: 144 el = 4*36; 1 z 4 aktywna.DG: 625 el, CA3: 240 el CA1: 384 el = 12 kol * 32 el CA3 separuje, w kolumnach CA1 koniunkcje cech z 3 kol. EC
Model umożliwia szybką naukę skojarzeń AB – AC bez interferencji. Autoskojarzenia: EC_in = EC_out, odwracalne transformacje + uzupełnianie B, C w testach skojarzeniowych. BuildNet, View_Train_Trial_Log pokaże statystykę. Wejście zawiera informacje o wzorcu wejściowym, wyjściowym i liście. Dane treningowe Wejście zawiera 2x6 grup: górna połowa to kontekst, w dolnej grupie lewa dolna trójka to A, a górna to B; dla testu B jest puste. W kolejnym kroku B=>C.
BuildNet, View_Train_Trial_Log pokaże statystykę. TrainInit, Step: pokazuje (A,B,Cont), aktywacja od EC_in DG CA3 CA1, rzadka rep. w CA3 skojarzona z CA1 EC_out. Jednostki wybrane z poprzedniego kroku mają białe obwódki, najwięcej powtarza się w EC_in, CA1, mniej w CA3 i nic w DG. Epoka treningowa: po 10 elementów + 3 zbiory testowe: AB, AC, nowe (lure items) by zobaczyć czy są traktowane jako nieznane. 1-3 epok! train step prog = LeabraEpoch, Step treningowy a potem testowy. TrialTestOutputData ma po 10 wierszy dla każdego AB, AC, nowe + suma wyników; stim_err_on = % źle aktywowanych na wyjściu dla B; stim_err_off = % źle nieaktywowanych na wyjściu dla B; próg ~1/3 by uznać rmbr=1, czyli zapamiętane; Suma: od góry lure, ab, ac, w ab nie więcej niż 1 błąd. Zmienić na train ac, a potem test pokazuje 0.9 i 0.8 dla obu list, 0 dla lure. Eksploracja modelu hipokampa
Targ w Network pokazuje jaki wzorzec był uczony, act targ w TextLog, stim_er_on = ułamek jednostek błędnie aktywnych w EC_out, stim_er_off = błędnie nieaktywnych w EC_out. Na Trial_1_GraphLog widać po każdym teście te dwie liczby, dla znanych wzorców są małe, przypomnienia prawidłowe, dla nowych są duże, ale on ~0,5 a off ~0.8, sieć rzadko konfabuluje. By przejść do listy AC wyłaczamy Test_updt = Trial_updt (lub no_updt) i StepTest aż w text_log zmienic się epc_ctrl na 1, to są zdarzneia dla listy AC: sieć ich nie rozpoznaje (rmbr=0) bo się jeszcze ich nie uczyła. Train_Epcs=5, train_env=Train_AC, Run i sprawdź wyniki. Dalsza eksploracja
Model hipokampa może się szybko, sekwencyjnie nauczyć skojarzeń AB – AC bez zbytniej interferencji. Wystarczyła do tego reguła kontrastywna Hebba, CPCA i odpowiednia architektura. Interferencja wynika z używania tych samych jednostek, w CA3 dochodzi do separacji jednakowych wzorców uczonych w innym kontekście. Separacja wzorców nie pozwala na skojarzenia, wnioskowanie oparte na podobieństwie, sprawne kodowanie wielowymiarowych informacji. Nie da się w jednym systemie osiągnąć dwóch sprzecznych rzeczy. Sugeruje to komplementarną rolę hipokampa, uzupełniającą powolne mechanizmy uczenia się korowego. Hipokamp może zapamiętywać epizody pomagające w orientacji przestrzennej, tworzyć koniunktywne reprezentacje łączące różne bodźce razem szybciej niż kora. Podsumowanie
Ważne odkrycia: Sidiropoulou, et al, Dopamine modulates an mGluR5-mediated depolarization underlying prefrontal persistent activity. Nature Neuroscience 26.01.2009Erickson, Maramara, Lisman, A Single Brief Burst Induces GluR1-dependent Associative Short-term Potentiation: A Potential Mechanism for Short-term Memory. J Cognitive Neuroscience 22, 2530-2540, 2010 Wewnętrzne własności neuronów pozwalające utrzymać niski próg pobudliwości przy braku stałego sygnału odpowiedzialne są za pamięć krótkotrwała. Szybkie zmiany synaptyczne nie są konieczne, neurony w korze przedczołowej (PFC) mogą zachować wzmożoną aktywność w okresie przerwy pomiędzy wskazówkami a późniejszym działaniem z nich wynikającym. Depolaryzacja tych neuronów wynika ze zmian wewnętrznych na skutek dochodzącej do nich salwy (burst) wyładowań, bez rekurencyjnych pobudzeń. Depolaryzacja się zmniejsza na skutek stymulacji receptorów dopaminowych D1 (to cała rodzina pobudzających receptorów). Pamięć krótkotrwała