1 / 18

Wykład 10 Neuropsychologia komputerowa

Wykład 10 Neuropsychologia komputerowa. Percepcja II: Postrzeganie niezmiennicze Włodzisław Duch UMK Toruń Google: W Duch. Rozpoznajemy obiekty niezależnie od położenia, skali i obrotów - jak?. Problem rozpoznawania obiektów.

Download Presentation

Wykład 10 Neuropsychologia komputerowa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wykład 10 Neuropsychologia komputerowa Percepcja II: Postrzeganie niezmiennicze Włodzisław Duch UMK Toruń Google: W Duch

  2. Rozpoznajemy obiekty niezależnie od położenia, skali i obrotów - jak? Problem rozpoznawania obiektów Niezmienniczość przestrzenna (spatial invariance) jest trudna, bo różne znaki zajmują częściowo te same pola recepcyjne, a te same znaki w różnych miejscach siatkówki obrócone lub innej wielkości wcale się nie pokrywają. Niezmienniczość przestrzenna to jedna z najważniejszych własności szlaku brzusznego. Uproszczenie: niezmienniczość obrazu tylko ze względu na położenie i skalę, pomijamy rotację (na to potrzeba dużo neuronów).

  3. Skąd niezmienniczość? Szkic 3D na podstawie rzutów 2D, pamiętana jest tylko jedna reprezentacja 3D (Marr 1982). Podejście syntaktyczne: składaj całość z kawałków modelu. Rozpoznawanie Wariant (Hinton 1981): szukaj transformacji (przesunięcia, skalowania, obrotu), dopasuj do kanonicznej reprezentacji w pamięci (por. nowsze propozycje, np. „pamięci kognitywnej”, wracające do tego pomysłu). Problem: wiele obiektów 2D może dać różne obiekty 3D; trudno jest dopasować obiekty bo przestrzeń szukania fragmentów i łączenia ich w całość jest zbyt wielka – czy naprawdę pamiętamy obiekty 3D?

  4. Niezmienniczość obróconych obrazów jest mocno ograniczona – np. rozpoznawanie obróconych twarzy jest trudne. Ograniczoną niezmienniczość rozpoznawania obiektów można uzyskać dzięki stopniowym hierarchicznym równoległym transformacjom, zwiększającym niezmienniczość i tworzącym coraz bardziej złożone cechy rozproszonych reprezentacji. Stopniowe transformacje Cel: nie 3D, ale zachować wystarczająco dużo szczegółów by dało się rozpoznać obiekty w niezmienniczy sposób po transformacjach. Efekt: pamięć na poziomie niezmienniczym to nie pamięć 3D ...

  5. Model objrec.proj.gz, wiele hiperkolumn, ale bardzo prostych. Uwzględniamy obszary i transformacje między LGN, V1, V2 i V4/IT. 20 wzorców, ale tylko pionowe/poziome elementy. Kombinacje elementów na poziomie IT mają reagować niezmienniczo. Output = reprezentacja na poziomie symbolicznym. Model rozpoznawania Obiekty do rozpoznawania, 3 z 6 możliwych segmentów. 18,19 = test Trening na 0-17, test na 18-19. 4 rozmiary, 5, 7, 9 i 11 pikseli.

  6. Hiperkolumna: te same sygnały, przesunięte i częściowo się pokrywające. Elementy wewnątrz hiperkolumny konkurują, kWTA, elementy w warstwie również konkurują – hamowanie na większym obszarze. Całkowite hamowanie = max (lokalnego, z całej warstwy). Hiperkolumny dokują ekstrakcji cech w całym polu widzenia => wystarczą te same wagi (weight sharing) dla każdej hiperkolumny. Własności modelu rozpoznawania Obiekty reprezentowane są za pomocą krawędzi w warstwie LGN On/Off, każda 22x22, zawinięte brzegi (geometria sferyczna). V1: 10x10 kolumn po 2x4 elementy, wyuczone reprezentacje krawędzi pionowych i poziomych, pola recepcyjne 4x4 w LGN, jest 8 pionowych i poziomych krawędzi dla on i 8 dla off, razem 16 = 4x4 jednostki. V2: 4x4 hiperkolumn, w matrycy 6x6, sygnały z kolumn 4x4, nakrywanie. V4/IT: 10x10, całe pole wzrokowe, dla tak prostych obiektów wystarczy.

  7. Symulacje bez wspólnych wag dla hiperkolumn dają te same rezultaty, chociaż są znacznie bardziej kosztowne; Hebbowski mechanizm prowadzi do jednakowych wag dla kolumny o tych samych (xi,yi). Bez Hebba sama korekcja błędów daje całkiem różne reprezentacje dla hiperkolumn, bo nie wykrywa korelacji wejść. Więcej własności Brak połączeń horyzontalnych – rep. V1 jest już ustalona, więc nie są konieczne a spowalniają uczenie; te połączenia są ważne w procesach wypełniania braków, iluzjach, rozpoznawaniu przysłoniętych obiektów. Parametry: Hebb =0.005, ale pomiędzy V1/V2 jest tylko 0.001 bo współdzielenie wag daje częstsze pobudzenia = wiec zmian. Uczenie: szybkość 0.01 => 0.001 po 150 epokach by stabilizować uczenie i przyspieszyć początkowe. Budowa sieci: BuildNet, sprawdzić własności połączeń, r.wt.

  8. StepTrain, faza – i StepTrain, faza + Całość trenowania wymaga wielu godzin; jeden obiekt może być w 4 rozmiarach i 256 pozycjach w siatce 16x16, razem są 1024 obrazy jednego obiektu, 18 obiektów treningowych, 18 432 wzorce. Wytrenowana sieć po 460 epokach x 150 obiektów na epokę, po 30 000 prezentacji osiąga dobre wyniki, mniej niż 2 prezentacje/wzorzec. Eksploracja sieci net_updt => cycle_updt pokaże uczenie dla całego cyklu, na wytrenowanej sieci fazy – i + są takie same. Jak koreluje się aktywność V2 i V4 z wejściami w LGN? Pola recepcyjne wynikające z uśrednionej aktywacji można obejrzeć patrząc na korelacje xiz LGN, yj z V2 lub V4, dla każdego elementu hiperkolumny 8x8 przedstawiamy wszystkie ri

  9. Aktywność 16x16 LGN-on dla jednej hiperkolumny V2, 8x8 elementów;współdzielenie wag => inne tak samo. Pola recepcyjne uśrednionej aktywacji Elementy z lewego dolnego rogu V2, odbierające z 4x4 kolumn V1 i ¼ pól LGN. Jasne paski = selektywna jednostka dla krawędzi (różnych rozmiarów) w określonym położeniu. Elementy V2 nie reagują na pojedyncze linie tylko na ich kombinacje. Rozmyte równoległe paski – reakcja na te same kombinacje w różnym położeniu.

  10. Aktywność LGN-off dla jednej hiperkolumny V2 współdzielenie wag => inne tak samo. Pola off V2 Te elementy reagują bardziej na zakończenia krótszych linii. Elementy reagujące selektywnie biorą udział w reprezentacji wielu wzorców, wykrywają złożone cechy wspólne dla różnych obiektów.

  11. Reakcja jednostek V2 na wykrywanie poszczególnych obiektów, czyli korelacje V2 – uśrednione wyjście 4x5 = 20 obiektów. Korelacje V2 – obiekty wyjściowe

  12. Uśredniona reakcja jednostek V4 na wykrywanie poszczególnych obiektów, czyli korelacje V4 – uśrednione wyjście 4x5. Korelacje V4 – obiekty wyjściowe Większa selektywność niż w V2, bo większa niezmienniczość i reakcja na bardziej złożone cechy.

  13. Obserwacja reakcji V2 i V4: 4 próbki używane w testach, każda pokazana we wszystkich pozycjach lewego kwadrantu wejść LGN, 11x11. Kolumny V2 reagują na ¼ całego pola. Obliczamy reakcje na poziomie V2/V4, kwadranty odpowiadają poszczególnym próbkom testowym; np. dla próbki 0 reakcje na wszystkie 8x8 pozycji tej próbki są w lewej dolnej ćwiartce dla danego elementu, cała jego aktywność dal 4 elementów jest w kwadracie 16x16. Testy pól recepcyjnych

  14. Hiperkolumna V2 ma 8x8 elementów, reakcje każdego na 4 próbki uśrednione po wszystkich pozycjach są w małych kwadratach 16x16. Testy V2 dla próbek

  15. V4 ma 10x10 elementów, reakcje każdego na 4 próbki uśrednione po wszystkich pozycjach są w małych kwadratach 16x16. Niezależność od pozycji widać po całych żółtych kwadrantach. Niektóre reagują na pojedyncze cechy próbki, inne na całą próbkę, a kilka na obecność elementów, które są w każdej próbce. Testy V4 dla próbek

  16. Tabela na następnym slajdzie podsumowuje wyniki testu prezentacji 20 obiektów we wszystkich pozycjach i reakcji (dla progu >0.5) elementów V4 na te prezentacje. Dla jednego obiektu w 256 możliwych pozycjach i 4 rozmiarach (1024 wzorce) na poziomie V4 jest średnio 10 różnych aktywacji. Szczegółowe wyniki są w objrec.swp_pre.err. Dwa nieznane obiekty 18, 19 dają same błędy. Trenowanie w celu określenia generalizacji: prezentacja nowego obiektu raz na 4 prezentacje; w 36 z 256 możliwych pozycji, rozmiary 5 lub 9 pikseli, więc 14% pozycji i 50% rozmiarów, 72 wzorce (7%). Po 60 epokach treningu, 150 obiektów/epokę, stała uczenia 0.001, obiekt 18 dał 85% poprawnych odpowiedzi na 1024 wzorce; obiekt 19 dał 66% poprawnych odpowiedzi, dla małych rozmiarów. Testy statystyczne

  17. Wyniki testu prezentacji 20 obiektów we wszystkich pozycjach i reakcji (dla progu >0.5) elementów V4 na te prezentacje przed uczeniem na 18 i 19. itm = numer obrazu; err = całkowita l. błędów (poz, rozmiary), %tot = błąd procentowy (# err/10.24), %itm = % błędów dla wszystkich prezentacji obrazów; correl = średnia korelacja z rep. V4 uniq = średnia # unikalnych rep. w V4 dla wszystkich 256 położeń (po binaryzacji). Size summary = to samo uśrednione po rozmiarach. Wyniki przed uczeniem

  18. Dlaczego pierwotna kora wzrokowa reaguje na zorientowane krawędzie? Bo uczenie korelacyjne w naturalnym środowisku prowadzi do tego typu detektorów; szczegółowe modele dość wiernie oddają strukturę kolumn wzrokowych jak i pokazują, że jest ona optymalna dla naturalnych tekstur i obrazów. Dlaczego układ wzrokowy rozdziela informacje na szlak grzbietowy i szlak brzuszny? Bo transformacje sygnału wydobywają jakościowo różne informacje, wzmacniając jedne kontrasty a zmniejszając inne.Bo pomoże to w skupianiu uwagi na kolejnych obiektach. Parę odpowiedzi

More Related