190 likes | 408 Views
Wykład 9 Neuropsychologia komputerowa. Percepcja I: Wzrok Włodzisław Duch UMK Toruń Google: W Duch. Percepcja jest stosunkowo najłatwiejsza do zrozumienia chociaż na wiele szczegółowych pytań nie ma jasnych odpowiedzi. Pytania ogólne:
E N D
Wykład 9 Neuropsychologia komputerowa Percepcja I: Wzrok Włodzisław Duch UMK Toruń Google: W Duch
Percepcja jest stosunkowo najłatwiejsza do zrozumienia chociaż na wiele szczegółowych pytań nie ma jasnych odpowiedzi. Pytania ogólne: W jaki sposób rozpoznajemy obiekty w różnych miejscach, orientacji, odległości, przy różnych rzutach obrazu na siatkówkę? Dlaczego pierwotna kora wzrokowa reaguje na zorientowane krawędzie? Dlaczego układ wzrokowy rozdziela informacje na szlak grzbietowy związany z działaniem i określaniem miejsca, i szlak brzuszny, związany z rozpoznawaniem obiektów? Dlaczego uszkodzenia kory ciemieniowej prowadzą do zaburzeń orientacji przestrzennej i uwagi (zaniedbanie stronne)? Motywacje
Organizacja hierarchiczna zaczyna się w siatkówce, przechodzi przez ciało kolankowate boczne (część wzgórza), docierając do pierwotnej kory wzrokowej V1, skąd rozsyłana jest dalej. System wzrokowy Wzrok u zwierząt różnego gatunku realizowany jest na wiele sposobów: ślimak ma komórki światłoczułe bez soczewek, owady złożone oko i 10-30.000 heksagonalnych fasetek, ssaki mają oko z siatkówką i soczewką, człowiek ok 120M receptorów.
Szlaki wzrokowe: siatkówka => ciało kolankowate boczne wzgórza (LGN) => promienistość wzrokowa => obszar pierwotnej kory V1 => wyższe piętra układu wzrokowego => obszary kojarzeniowe i wielomodalne. Kora obszaru V1, zwana jest również korą prążkowaną (białe paski na szarym tle, aksony promienistości wzrokowej kończące się w warstwie 4). Szlaki wzrokowe Komórki V1 zorganizowane są w kolumny dominancji dwuocznej i kolumny orientacyjne, retinotopicznie. Proste komórki warstwy 4 reagują na paski o określonym nachyleniu, kontrastowe krawędzie, pobudzenia z jednego oka. Znaczna część środkowego obszaru V1 reaguje na sygnały z okolic plamki żółtej (dołka środkowego) oka, gdzie gęstość receptorów jest największa.
„Co widzimy" = szlak drobnokomórkowy zmierzający do obszarów IT, "gdzie to jest" = szlak wielkokomórkowy, zmierzający do płata ciemieniowego. Co/gdzie Milner i Goodale (1995): szlaki wzrokowe nie tyle określają co i gdzie, co umożliwiają działanie i percepcję. Jest jeszcze stary szlak limbiczny, umożliwiający szybkie działanie w niebezpiecznych sytuacjach (po którym następuje fala strachu).
Ungerleider i Mishkin (1982): istnieją dwa w znacznej mierze rozdzielone szlaki przetwarzania informacji wzrokowej, biegnącej już od oka. Wielkoziarniste komórki PA siatkówki, 3 typy stożków fotorecepcyjnych, duże pola recepcyjne, szybko przewodzące aksony, pobudzenie dla światła w szerokim paśmie. Drobnoziarniste komórki PB, 1 lub 2 typy stożków fotorecepcyjnych, małe pola recepcyjne, wolno przewodzące aksony, rozpoznają opozycje barw. Dwa strumienie Szlak wielkokomórkowy: biegnie do dwóch wielkokomórkowych warstw LGN, charakteryzuje go niska rozdzielczość przestrzenna, wysoka wrażliwość na kontrast, szybkie przesyłanie sygnałów, bez informacji o kolorze. Szlak drobnokomórkowy ma 4 drobnoziarniste warstwy w LGN, duża rozdzielczość przestrzenna, kolor, wolniejszy przesył informacji, niska wrażliwość na kontrast.
Siatkówka nie jest pasywną matrycą rejestrującą obrazy. Kluczowa zasada: wzmacnianie kontrastów podkreślających zmiany w przestrzeni i czasie, wzmacnianie krawędzi, jednolicie oświetlone obszary są mniej istotne. Fotoreceptory w czopkach i pręcikach, 3-warstwowa sieć, komórki zwojowe =>LGN. Siatkówka Pole recepcyjne: obszar, który pobudza daną komórkę. Kombinacja sygnałów w siatkówce daje pola recepcyjne typu centrum-otoczka (on-center) i odwrotnie, wykrywa krawędzie. Każde z pól indywidualnych komórek można modelować Gaussem, więc takie pola otrzymuje się jako różnicę (DOG).
Kompresja sygnału – częściowo już w siatkówce. Informacje różnego typu trafiają do różnych warstw LGN. Stacja pośrednia – wszystkie sygnały zmysłowe (oprócz węchowych) przechodzą przez różne jądra wzgórza. Dynamiczne przetwarzanie informacji: sterowanie uwagą i szybki wielkokomórkowy szlak reagujący na ruch. Wsteczne projekcje V1=>LGN są o rząd wielkości bardziej liczne niż projekcje LGN=>V1. Ciało kolankowate boczne Konkurencyjna dynamika wybiera sygnały z pola wzrokowego, zwłaszcza dotyczące ruchu. Steruje ruchem gałki ocznej przez połączenia z wzgórkami czworaczymi górnymi (sup. colliculus).
Sygnały punktowo-kontrastowe z LGN kora V1 organizuje w zorientowane pod określonym kątem detektory krawędzi. Detektory krawędzi Proste komórki V1 łączą się w detektory krawędzi, pozwalając określić kształty, inne komórki reagują na kolor i rodzaj powierzchni (teksturę). Własności detektorów krawędzi: różna orientacja; wysoka częstość = szybkie zmiany, drobne paski; niska częstość = łagodne zmiany, szerokie paski; polarność = ciemne-jasne lub vv, ciemne-jasne-ciemne lub vv.
Specyficzna budowa, uwarunkowana częściowo genetycznie, częściowo rozwija się dzięki stymulacji, organizacja retinotopiczna jak w LGN. Różne typy detektorów krawędzi i rodzaju tekstury upakowane są topograficznie w korze V1 w hiperkolumny, obejmujące rozdzielone sygnały z lewego i prawego oka (widzenie 3D, nie u wszystkich ssaków). Topografia kory Obszar plamek: sygnały koloru + częściowo kształtu, niskie częstości => V4. Obszar między plamkami: detektory krawędzi, co 10o, wysokie częstości. Hiperkolumna ~1mm2, połowa V1 dla dołka środkowego!
Zorientowane detektory krawędzi mogą się utworzyć przez korelacyjne uczenie się za pomocą mechanizmów Hebbowskich w oparciu o naturalne sceny. Co dzieje się z informacją o kolorze, teksturach, ruchu? Reprezentacja w korze V1
Szlak wielkokomórkowy: przez płat potyliczny szlakiem grzbietowym do kory ciemieniowej. Dochodzi do warstwy 4B w V1, stąd do grubych ciemnych pasków obszaru V2, analizuje informację o ruchu obiektu. W V1, warstwa 4B => V5, lokalizacja w polu widzenia, ruch. V5 pobudza płat ciemie-niowy, PPC (tylna kora ciemieniowa), obszar 7 i 5; umożliwia to orientację przestrzenną, postrzega-nie głębi i ruchu, połącze-nie z wzgórkami czwora-czymi (orientacja oczu). Szlak grzbietowy
Szlak drobnokomórkowy: szlak brzuszny, do kory dolnoskroniowej. V1 => V2 obszar międzyplamkowy, reaguje na orientację linii, daje dużą ostrość widzenia, bez koloru. V1 => V3 obszar plamkowy, reaguje na kształty, reakcja na kolor w neuronach w ciemnych prążkach V3. V2 => V4, główny obszar analizy koloru, informacja dochodzi do kory dolnoskroniowej (IT). Obszar IT w płacie dolnoskroniowym ma neurony reagujące na złożone obiekty. Szlak brzuszny Demo: laboratorium Keiji Tanaka, RIKEN.
W jaki sposób tworzą się pola recepcyjne? Skąd takie własności V1? Model v1rf.proj.gz, R. 8 Wejścia: 12x12, sygnały z komórek LGN on (pos) i off (neg) center. Wzorce wejściowe: przypadkowo wybrane fragmenty 24x24 z 4 naturalnych obrazów 600x800. Warstwa ukryta 14x14; połączenia: przypadkowe z wejściem a pobudzające wewnątrz warstwy. Opis projektu w rozdz. 8.3.2. Naturalne kształty i tekstury prowadzą do specyficznych pól recepcyjnych: stąd reakcje na krawędzie.
Kora V1 otrzymuje z LGN sygnał on/off o wzmocnionym kontraście, wejście do V1 przez warstwę 4, przetwarzanie w tym modelu odpowiada procesom zachodzącym głównie w warstwach 2 i 3. Model obejmuje jedną hiperkolumnę, analizującą mały wycinek obrazu ze zdjęć krajobrazów i roślin => wszystkie elementy widzą to samo. Własności modelu Własności: geometria sferyczna, tzn. góra = dół, lewa = prawa; wejścia niezależne dla komórek on/off, zgodnie z biologią; silne i rozległe pobudzające połączenia horyzontalne – jak w SOM; kWTA zostawia ~10% aktywnych neuronów. Kontrast dla wag jest mały ~1, bo to nie są neurony decyzyjne, progi są duże (~2) by wymusić rzadkie reprezentacje, silne korelacje. Szum pomaga w unikaniu słabych rozwiązań.
Sprawdzić strukturę, wagi połączeń (r.wt): silne pobudzenia wewnątrz warstwy ukrytej, zawijanie pobudzeń na brzegach, przypadkowe połączenia z wejściami on/off. LoadEnv by załadować obrazek 512x512 - do treningu użyto 10 obrazów, tu jest jeden przykładowy, przetworzony na kropki on/off. Ćwiczenia z v1rf StepTrain – obserwacja oscylacji uczenia dla fazy – i + Komplementarność on/off: silniejsza aktywacja on dla obrazów jaśniejszych w środku niż na brzegach, ciemne = dodatnia aktywacja off. Pytanie: czego się można spodziewać jeśli horyzontalne połączenia będą dominować? Sprawdź swoje przypuszczenia zmieniając chwilowo lat_wt_scale 0.04 => 0.2. LoadNet by załadować wytrenowaną sieć, po 100.000 prezentacji obrazów i paru dniach obliczeń ...
W jaki sposób tworzą się pola recepcyjne? Skąd takie własności V1? Pola recepcyjne Sprawdzić aktywacje r.wt, zmienić skalę koloru by lepiej widzieć orientację pól, sprawdzić kilka elementów ukrytych, bi- i tri-polarne pola obu rodzajów. Załadować wszystkie: View, RFIELDS aktywność on=czerwone, off=niebieskie. Orientacja, położenie, rozmiar, polarność to 4 różne cechy pól recepcyjnych. Widać promieniste zmiany orientacji (pinwheel), punkty osobliwe. View, PROBE_ENV pokazuje 4 różne próbne bodźce, StepProbe pokaże aktywację jednostek ukrytych.