340 likes | 480 Views
Marcin Miłkowski. Wstęp do kognitywistyki OBLICZENIA NEUROPODOBNE. Bez reguł. O czym będzie mowa. Neurony jako elementy obliczeniowe Perceptron i problemy koneksjonizmu Renesans koneksjonizmu Rumelhart i McClelland o uczeniu się czasowników. McCulloch i Pitts (1943).
E N D
Marcin Miłkowski Wstęp do kognitywistykiOBLICZENIA NEUROPODOBNE. Bez reguł
O czym będzie mowa • Neurony jako elementy obliczeniowe • Perceptron i problemy koneksjonizmu • Renesans koneksjonizmu • Rumelhart i McClelland o uczeniu się czasowników
McCulloch i Pitts (1943) • Pierwszy model mózgu jako sieci neuronów. • Neurony to elementy cyfrowe. Albo przewodzą prąd, albo nie. • Neurony jako bramki logiczne: odpowiednio połączone są równie silne jak maszyna Turinga.
Perceptron • F. Rosenblatt (1957): uczące się sieci neuronowe – perceptrony. • Przez modyfikację połączeń między neuronami można zmienić działanie sieci. • Wystarczy dopasować wagę połączeń tak, aby wejściu odpowiadało odpowiednie wyjście. Wtedy perceptron rozpoznaje wzorce.
Perceptron jako klasyfikator • Wiele wejść (X1... X7) • Wiele wag (W1... W7) • Jedno wyjście (y), binarne • Perceptron daje odpowiedź „tak” lub „nie”. • Klasyfikacja =rozpoznawaniewzorca
Mark I Perceptron • Wczesne perceptrony były częściowo mechaniczne (potencjometry i silniczki!) • Wielki entuzjazm
Minsky i Papert (1969): koniec wczesnego koneksjonizmu • Perceptrony nie nauczą się nawet prostych funkcji takich jak alternatywa rozłączna (XOR)!
Sieci wielowarstwowe • Sieci z wieloma warstwami neuronów mogą zrealizować każdą obliczalną funkcję matematyczną. • W 1969 roku nie był znany algorytm ich uczenia, a algorytm perceptronu nie wystarczał. • Lata 80: algorytm propagacji wstecznej. Renesans koneksjonizmu!
Koneksjonizm klasyczny • Sztuczne sieci neuronowe symulują procesy poznawcze. • W latach 1980 były bardzo uproszczone. • Zwykle trzy warstwy
Koneksjonizm • Sieci nerwowe przekształcają sygnał wejściowy na wyjściowy, a nie symbole. • Przekształcenie zależy od wag połączeń. Uczenie sieci to ustawianie wag. • Sieci pracują równolegle, a nie sekwencyjnie jak GPS. I nie ma w nich żadnych reguł!
Koneksjonizm klasyczny • James McClelland (Stanford University) • David E. Rumelhart (1942-2011)
Nabywanie czasu przeszłego w j. angielskim • Końcówki czasu past simple • Regularne (90%) • talk => talked • pit => pitted • Nieregularne (10%) • hit => hit • get => got • go => went • Jak dzieci to opanowują?
Fazy rozwojowe: wizja tradycyjna • Faza 1: Uczenie na pamięć • początkowo bezbłędnie, ale mało czasowników • Faza 2: Wydobywanie reguły • nadmierna regularyzacja (comedjako forma przeszła come) • Faza 3: Reguły + pamięć • usuwanie błędów: współistnienie form regularnych i nieregularnych
Nabywanie czasu przeszłego • Tradycyjne modele wyjaśniające postulują reguły: w końcu regularnych jest90% czasowników! • Reguły przekształceń wyjaśniają tworzenie czasu przeszłego. • Czy można to wyjaśnić inaczej?
Bez reguł! • Rumelhart & McClelland (1986) pokazali, że • rozproszone sieci przetwarzające równolegle to konkurencja dla symbolicznych systemów reguł; • wyuczenie sieci odpowiada rozwojowi umiejętności u dzieci i wyjaśnia dynamikę nabywania końcówek. • Fazy uczenia się odpowiadają fazom rozwojowym dzieci.
Co jest modelowane? • Newell & Simon gromadzili raporty werbalne, Rumelhart & McClelland opierają się na prawidłowości statystycznej w populacji. • Też postuluje się etapy przetwarzania tak samo jak w GPS-ie i jak u Marra.
Reprezentacja fonemów • Reprezentacja wymowy samych czasowników (bez kontekstu!) zaproponowana przez W. Wickelgrena(1969) • Fonemy jako wzorce strukturalne, tzw.Wickelfeatures • Wickelfeatures to wejście i wyjście sieci • Model stanowiidealizację
Wickelfeature Representation of Past Tense Wickelfeature Representation of Stem Wiele zachowań, jedna sieć • Wejście: rdzeńczasownika • Wyjście:czas przeszły czasownika • Wagi określają zachowanie sieci. Nie ma tworzenia czasowników na podstawie reguł i na podstawie zapamiętanych wyjątków.
Wyniki • Wysoka poprawność modelu (zgodność danych o dzieciach i wyjścia sieci): ponad 90% • Jest transfer tworzenia na nowe formy, 92% poprawności dla regularnych, 84% dla nieregularnych • Sieć przewiduje zachowanie dzieci w wieku przedszkolnym znane z badań (Bybee & Slobin 1982)
Wyniki • Rozwój i uczenie są U-kształtne • Występuje nadmierna generalizacja • A potem błędyzanikają
Dowód możliwości • Sieć nabywa czasu przeszłego bez reprezentowania reguł • Ale Rumelhart i McClelland pokazują tylko, że wyuczenie sieci symulującej fazy zachowania jest możliwe(lub wystarczające) • Nie ma świadectw empirycznych, że to robi układ nerwowy, nawet w przybliżeniu!
Krytyka Pinkera i Prince’a (1988) • Błędne wyjaśnienie. Fonologia nie wystarcza! • Np. homofony wring i ring mają zupełnie różne nieregularne formy czasu przeszłego (wrung i rang). Ta sieć się tego nie nauczy. • Sieć gubi strukturalne własności ciągów fonemów (traktuje je jak nieuporządkowane zbiory, worki!)
Rozwój badań • W kolejnych modelach odrzucono Wickelfeatures. • Wprowadzono warstwę ukrytą. • Sam Pinker zaproponował teorię hybrydową „wyrazy i reguły”: • reguły – czasowniki regularne; • sieć neuronowa – pamięć nieregularnych. • Ale nie istnieje pełen komputerowy model.
Problem z frekwencją • Rumelhart i McClelland badali prawidłowości statystyczne: ich model korzystał z listy frekwencyjnej czasowników. • Najpierw podawano czasowniki najczęstsze, potem rzadsze. • I takie etapy uczenia mogły stwarzać wrażenie podobieństwa do dzieci. • Ale dzieci słyszą rzadsze czasowniki od razu! Tylko rzadziej...
Nabywanie czasu przeszłego • Metodologia: • Analiza zdolności, w tym możliwych reprezentacji wejścia i wyjścia (Wickelfeatures) • Gromadzenie danych o zachowaniu (wcześniejsze badania) • Zbudowanie i wytrenowanie sieci za pomocą informacji wejściowych i wyjściowych • Przetestowanie na danych behawioralnych
Pojedynczy badany kontra populacja • Wyjście sieci uśrednia wyniki w populacji. Żadne konkretne dziecko może tak nie mówić. • Niebezpieczeństwo, że u różnych badanych występują różne mechanizmy psychologiczne! • To niebezpieczeństwo jest nawet w modelach neurologicznych, bo mózgi się różnią • Newell i Simon badali pojedynczych ludzi. Bezpieczny konserwatyzm.
Symbole i sieci Newell & Simon Rumelhart & McClelland • Analiza zadania, w tym możliwych reprezentacji rozwiązywanego zadania • Zgromadzenie danych o zachowaniu • Zbudowanie reguł produkcji (reguły przepisywania symboli) do szukania rozwiązania • Test na danych • Analiza zadania, w tym reprezentacji wejścia i wyjścia (Wickelfeatures) • Zgromadzenie danych o zachowaniu • Zbudowanie i wytrenowanie sieci za pomocą informacji WE i WY • Test na danych
Kompetencja i wykonanie (Chomsky) • Kompetencja językowa: znajomość języka • Wykonanie językowe: zachowanie użytkowników języka • U Chomsky’ego kompetencja jest (prawie) bezbłędna. Badanie wykonania jest nieinteresujące. • Koneksjoniści badają zmiany kompetencji.
Swoistość koneksjonizmu • Zrealizowanie całej sieci w komputerze pozwala badać bardzo złożone zjawiska, których nie sposób sobie wyobrazić. Modele werbalne (np. Pinkera „wyrazy i reguły”) nie mają tej zalety. • Koneksjoniści często modyfikują sieci i badają ich własności.
Niebezpieczeństwo koneksjonizmu • Bardzo złożone sieci neuronowe są trudne do zrozumienia. • Paradoks Boniniego: zjawisko wyjaśniane może być równie trudne do pojęcia, jak jego wyjaśnienie. • Wypracowano metody badania struktury sieci neuronowych, aby sobie z tym poradzić. Analiza sieci po treningu...
Koneksjonizm: mity i rzeczywistość • Sztuczne sieci neuropodobne są bliższe mózgowi niż maszyna Turinga. • Ale i tak są boleśnie uproszczone. • Sieci łagodnie obniżają poziom działania, a maszyna Turinga po prostu nie może działać po uszkodzeniu reguły. • Systemy klasyczne też to potrafią, ale muszą mieć odpowiednią strukturę.
Koneksjonizm: mity i rzeczywistość • Sieci neuronowe działają w czasie rzeczywistym, a maszyna Turinga – w dyskretnym czasie kroków obliczania. • W rzeczywistości sieci neuronowe stosują ograniczenie „100 kroków na sekundę”, bo koneksjoniści zakładają, że mózg nie może wykonać więcej operacji. • Mocno kontrowersyjne założenie. Do czasu rzeczywistego stąd daleko...
Koneksjonizm: mity i rzeczywistość • Sieci świetnie rozpoznają wzorce i generalizują. • W istocie to potrafi wiele innych algorytmów uczenia maszynowego. Ale szybciej (np. Support Vector Machines, SVM).
W następnym odcinku • Układy dynamiczne i raczkujące dzieci