320 likes | 406 Views
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining. 31. Előadás Dr. Pauler Gá bor , Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edu
E N D
Pécsi TudományegyetemPollack Mihály Műszaki KarMűszaki Informatika SzakData Mining 31. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edu Készült a PTE Alapítvány támogatásával
Az előadás tartalma Mesterséges idegsejt hálózatok: • Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok • Momentumos, Kötegelt/tagosított, Zajosított, Súly lecsengetéses visszacsatolásos tanulás • Visszacsapásos tanulás • Gyors visszacsatolásos tanulás • Konjugált gradiens módszer • Gradiens származtatás algoritmus • Szimulált hűtés • Genetikus algoritmus • Előjelfüggvényes, adaptív súly lecsengetéses visszacsatolásos tanulás • Visszacsatolásos tanulás idősorokon • Rekurrens hálózatok, Időbeli visszacsatolásos tanulás • Időbeli eltolásos hálózatok • Radiális bázisfüggvényű hálózat • Topológiája • Aktivációja és tanulása • Értékelése és grafikai szemlélete • Továbbfejlesztései: Dinamikus lecsengetés/ Adaptív vektor kvantizáció • Alakfeltérképező hálózat • Kohonen-féle alakfeltérképező • Fuzzy rendszer Kohonen-alakfeltérképezőből • Kompetitív backpropagáció • Topológiája, aktivációja és tanulása • Esettanulmány: Az I. Spam Világháború • Karakterfelismerési példa • Adaptív rezonancia hálózat • Célja, topológiája, aktivációja és tanulása • Kaszkád-korrelációs tanulás • Szakirodalom
Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok 1 A Lesson30-ban ismertetett visszacsatolásos tanulást (Backpropagation) alkalmazó többmezős perceptron (Multi-layer Perceptron) hálózat tanulásának legfőbb hátránya a rendkívül alacsony konvergencia volt. Ezt az ott ismertetett trükkökön túl az algoritmus következő módosításaival kívánták feloldani: • Momentumos visszacsatolásos tanulás (MomentumBackpropagation, MBP): • A wsúlyok megváltoztatatásába egymhoe[0,1],< ghoerátával beleveszi az előző megváltozásukat is, az algoritmus (30.14) és a (30.19) formuláit a következőképp módosítva: who(je+1) =(ghoe- mhoe) × sh(xhje)×Doje+ mhoe × sh(xhje)×Do(je-1)+ (1-ghoe)×whoje, h=1..H, o=1..O (31.1) • Így folytonosítja a súlyok változásait, nem tudnak annyira hirtelen megváltozni, ami az alsóbb szintű neuronmezők (2.-3. mező, stb.) esetén létfontosságú a modell stabilitása szempontjából • Kötegelt/tagosított visszacsatolásos tanulás (Batch/ChunkBackpropagation, BBP/CBP): • Tanítási epoch közben nem változtatja meg a w súlyokat, csak gyűjti a megváltozásokat, és az epoch végén, az összes minta lefuttatása után aktualizálja csak őket, az algoritmus (30.14) és a (30.19) formuláit a következőképp módosítva: who(je+1) = ghoe× Sj(sh(xhje)×Doje) + (1-ghoe)×whoje, h=1..H, o=1..O (31.2) • Ez még lassabb konvergenciát eredményez, de elkerülheti a w súlyok beragadását lokális optimumba • Zajosított visszacsatolásos tanulás (NoiseBackpropagation, NBP): • A szimulált hűtéses (Simulated Annealing) szélsőérték-keresés (lásd: Session26) alapötletéhez hasonlóan, kismértékű, és egyre csökkenő véletlen zajt ad a súlyokhoz vagy a tanulási rátákhoz, így kirázhatja a súlyokat a lokális optimumba ragadásból, az algoritmus (30.14) és a (30.19) formuláit a következőképp módosítva: who(je+1) = ghoe× sh(xhje)×Doje+ (1-ghoe)×whoje+ Rnd(0,MaxNoise)m×(1-e), h=1..H, o=1..O (31.3) • Hátránya, hogy nehéz eltalálni a MaxNoise optimális kezdőzajt ésm zaj csökkenési ütemet, ez erősen esetfüggő
Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok 2 • Súly lecsengetéses visszacsatolásos tanulás (Weight DecayBackpropagation, WDBP): • e=1..Eepochon keresztül(1- me), me[0,1]rátával csökkenti a súlyokat, bármilyen tanulástól függetlenül is. who(e+1) =(1- me)×whoe, h=1..H, o=1..O, e=1..E (31.4) wih(e+1) =(1- me)×wihe, i=1..n, h=1..H,e=1..E (31.5) A kis súlyok lenullázásával egyszerűbb, kisebb lesz a hálózat • Visszacsapásos tanulás (Backpercolation): • A visszacsatolásos tanulás speciális változata, ahol először a hibajelet visszacsatolja a teljes hálózat összes szintjén, anélkül, hogy a súlyokat megváltoztatná: sh(j+1)(e+1) = shje + So( who(je+1) × Doje)/ So( who(je+1) ),h=1..H (31.6) • Majd ezután változtatja meg az összes mezőközi csatolás súlyát: wih(je+1) = gihe× si(xije)×Dhje + (1-gihe)×wihje, i=1..n, h=1..H (31.7) Lassabb konvergenciát eredményez, de nagyobb eséllyel kerüli el a súlyok beállításának lokális optimumba ragadását • Gyors visszacsatolásos tanulás (QuickPropagation, QP): Feltételezi, hogy az SSE hiba, mint a w súlyváltozók függvénye összerakható lokális pozitív állású parabolákból. Ezen függvény globális minimumát keresi valamilyen globális optimalizációs módszerrel (lásd: Session26): • Konjugált gradiens módszer (Conjugated Gradient Backpropagation, CGBP): • Elsőrendű deriváltakat képez a súlyok szerint • Egyenlővé teszi őket nullával és megoldja az egyenletrendszert, melynek gyökei a lokális minimumok • A lokális minumokbeli másodrendű deriváltakból állóHesse-mátrix sajátértékeinek vizsgálatával matematikailag bizonyítható, hogy globális minimum-e az adott súlybeállítás • Csak akkor használható, ha az egész hálózat folytonos, kétszer differenciálható jelzési- és aggregációs függvényeket használ, és kis méretű, mert a rengeteg lokális minimum miatt óriási a számlásigénye
who who who who bh bo bh bo So(xot) So(xot) Sh(xht) Sh(xht) uo uo uh uh ao ao ah ah xot xht xht xot lo lh lo lh wih wih wih wih Si Si Ph Ph bi bi Si(xit) Si(xit) ui ui ai ai xit xit li li Input Input Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok 3 • Gradiens származtatás algoritmus (Gradient Descendent Backpropagation, GDBP): • Nem követeli meg a folytonos, kétszer differenciálható függvények jelenlétét, de simán lokális optimumba ragad, ezért itt a gyakorlatban nem használható • Szimulált hűtés (Simulated Annealing Backpropagation, SABP): • A gradienshez adott, folyamatosan csökkenő véletlen zaj kirázhatja a keresést lokális optimumba ragadásból, de rontja a konvergenciát, illetve van hogy ki sem alakulhat, mert oly nagy mértékű zaj lenne szükséges a lokális optimumok közti ugráláshoz • Genetikus algoritmus (Genetic Algorithm Backpropagation, GABP): • A hálózat w súlyainak, a neuronok a jelzési határértékeinek és b meredekségeinek bináris felbontásából képez kromoszómákat • Egy random keresőpopulációval indul, ezekből tenyészti ki az optimális megoldást • Előnye, hogy a genetikus algoritmus jól kezeli a rengeteg lokális optimumot, hátránya, hogy a kromoszómák összeállításához és a genetikus algoritmus helyes beállításaihoz semmiféle támpont nincsen, valamint magas a számolásigénye
SSE SSE’ woh woh 0 0 Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok 4 Előjelfüggvényes, adaptív súly lecsengetéses visszacsatolásos tanulás (Resilient Backpropagation, RProp-MAP) • Csak az yojelvárt és xojebecsült output értékek eltéréseinek előjelét (Sgn()) veszi figyelembe, a nagyságukat nem: Doje = Sgn(yoj - xoje), o=1..O, j=1..m, e=1..E (31.8) • o=1..O output változók szerintManhattan-távolságot (Manhattan-Distance) számít az elvárt és becsült output vektor közt: dje(yoj,xoje) = So|Doje|, j=1..m, e=1..E (31.9) • A w súlyok gradiens származtatással történő optimalizálása során nemcsak ezt a távolságot minimalizálja, hanam a kapcsolati súlyok négyzetösszegét is: SSE’ = Sj dje(yoj,xoje) + Si Shwihe2+ Sh Sowhoe2 Min (31.10) Ezzel csökkenti a lokális optimumok jelenlétét a célfüggvényen, amibe a gradiens algoritmus beleragadhatna, valamint a lehető legegyszerűbb szerkezetű hálózatra törekszik • A gradiens algoritmus egyre csökkenő ge lépésközét/ tanulási rátáját a távolságokés a kapcsolati súlyok szórásának aránya alapján, adaptív módon állítja be: ge = Stdevje(dje(yoj,xoje)) (Varih(wihe) + Varho(whoe))0.5 (31.11) Ezzel eléri, hogy kezdetben nagy lépésekkel átlépjen a lokális optimumokon, majd csökkenő lépésekkel be tudjon találni a globális optimumba.
Az előadás tartalma Mesterséges idegsejt hálózatok: • Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok • Momentumos, Kötegelt/tagosított, Zajosított, Súly lecsengetéses visszacsatolásos tanulás • Visszacsapásos tanulás • Gyors visszacsatolásos tanulás • Konjugált gradiens módszer • Gradiens származtatás algoritmus • Szimulált hűtés • Genetikus algoritmus • Előjelfüggvényes, adaptív súly lecsengetéses visszacsatolásos tanulás • Visszacsatolásos tanulás idősorokon • Rekurrens hálózatok, Időbeli visszacsatolásos tanulás • Időbeli eltolásos hálózatok • Radiális bázisfüggvényű hálózat • Topológiája • Aktivációja és tanulása • Értékelése és grafikai szemlélete • Továbbfejlesztései: Dinamikus lecsengetés/ Adaptív vektor kvantizáció • Alakfeltérképező hálózat • Kohonen-féle alakfeltérképező • Fuzzy rendszer Kohonen-alakfeltérképezőből • Kompetitív backpropagáció • Topológiája, aktivációja és tanulása • Esettanulmány: Az I. Spam Világháború • Karakterfelismerési példa • Adaptív rezonancia hálózat • Célja, topológiája, aktivációja és tanulása • Kaszkád-korrelációs tanulás • Szakirodalom
who who who who bh bo bh bo So(xot) So(xot) Sh(xht) Sh(xht) uo uo uh uh ao ao ah ah xot xht xht xot lo lh lo lh wih wih wih wih Si Si Ph Ph bi bi Si(xit) Si(xit) ui ui ai ai xit xit li li Input Input Idősori előrejelző hálózatok 1 • A legegyszerűbb idősori előrejelző hálózat a Lesson30–ban már említett Temporális Asszociatív Memória (TAM). Ez sosem terjedt el széles körben, mert a teljes kétirányú összecsatolt neuronmezőt nehéz úgy tanítani, hogy Ljapunov stabil állapotai megfeleljenek a betanított mintáknak, főleg ha azok nagyon hasonlóak. (Közeli minták minimumhelyei a Ljapunov-energiaföggvényen összeolvadhatnak, és áthallás (Crosstalk), vagyis gyakori csere jöhet létre a minták közt) Ezt a problémát kívánják feloldani a rekurrens hálózatok (Recurrent Backpropagation): • Olyan 3 mezős, Backpropagációval tanított perceptron, ahol az input mező egy idősoron végiggörgő időbeli ablak tartalmát kapja meg a tanítás és az aktiváció során • A hálózat Jordan-féle verziójában (Jordan Networks) az output mező neuronjaiból direkt visszacsatolás irányul a hasonló tagszámú input mező neuronjai felé • A Elman-féle verzióban (Elman-Networks) a rejtett mező neuronjai csatolódnak vissza direktben az inputba • Mindkét fajta hálózat könnyebben tanítható a TAM-nál és kisebb az áthallás veszélye hasonló minták esetén • A Jordan hálózat – mivel a 3. mezőből csatol vissza, a rejtett mezőben speciális idősori mintázatokat képes tárolni, ezért komplexebb idősori viselkedés modellezésére képes, mint az Elman • Az Elman képességei közelebb állnak a TAM-hoz, de a plusz egy előrecsatoló mező miatt jobban alkalmas az output utószűrésére (pl. simítás)
bi bh bi bo bo bi bh bh bo Si(xit) Sh(xht) So(xot) So(xot) Sh(xht) Si(xit) Si(xit) So(xot) Sh(xht) ui uh uo uh uh uo uo ui ui ah ah ai ao ai ah ao ao ai xit xot xot xht xht xit xht xot xit lh lo lh li li lo lo li lh Sj Sj Sj Sj Sj Sj Sj Sj Sj Idősori előrejelző hálózatok 2 Időbeli visszacsatolásos tanulás (Backpropagation Through Time, BPTT) • Azonos szélességű, teljes előrecsatolással összekötött neuronmezőkből áll, melyek t=1..f időpontokat képviselnek egy időbeli ablakban • Olyan csatolásai is vannak, amelyek több mezőszinet átugorva kötnek össze mezőket • Az azonos szintnyi távolságra lévő mezőket összekötő szinapszishalmazok súlyai azonosak egymással • Bármely mező i=1..n neuronjai az i-edik t=1..T idősor yit elemeit kapják meg e=1..T-f epoch során inputként, az időbeli ablakot elcsúsztatva az idősorokon • Az aktiváció után ezek xite membránértékektől mért eltérései képezik a hibajelet a visszacsatolásos tanulás számára • Amely a mezőközi és a több mezőt átugró csatolásokon egyaránt terjed visszafele • Többváltozós autoregressziós modell-sorozattal (lásd: Session15) analóg működésű, így többféle hullámhosszú hullámzásból összetett szerkezetű idősorokat tud elemezni, viszont nem súlytja az autoregreszió multikolinearitással problémája • A felismerhető maximális hullámhossz az alkalmazott mezők számától függ • A BPTT hálózat fő előnye a TAM-mal szemben, hogy az előrecsatoló hálózat konvergenciája biztosabb, mint a visszacsatoló hálózaté
bo bo bo bh bh bh So(xot) So(xot) So(xot) Sh(xht) Sh(xht) Sh(xht) uo uo uo uh uh uh ah ah ah ao ao ao xht xht xht xot xot xot lh lh lh lo lo lo Sj Sj Sj Sj Sj Sj p bi bi bi bi bi bi bi bi bi Si(xit) Si(xit) Si(xit) Si(xit) Si(xit) Si(xit) Si(xit) Si(xit) Si(xit) ui ui ui ui ui ui ui ui ui Head & Shoulders t ai ai ai ai ai ai ai ai ai xit xit xit xit xit xit xit xit xit li li li li li li li li li Input Input Input Input Input Input Input Input Input Idősori előrejelző hálózatok 3 Időbeli eltolásos háló- zatok (Time Delay Neural Networks, TDNN): tőzsdei al- kalmazásokban gyakran van szükség összetett időbeli alak- zatok felismerésére, amire a BPTT nem képes: pl. a „fej és vállak” (Head &Shoulders) brókeri tapasztalatok sze- rint az árfolyam trend fordulását jelzi elő az árfolyamok Lesson28–ban leírt fraktál tulajdonságai miatt. A TDNN-nek 2 dimen- ziós input mezője van i=1..n idősorok és t=1..f időbeli ablak periódusai szerint.Innen teljes előre- csatolás megy 1 vagy több 2 dimenziós rejtett me- ző felé (helytakarékosságból 1db 1 dimenziósat ábrá- zoltunk). Ezen csatolásban minden k-adik periódusból kiinduló szinapszisok azonos súlyt kapnak: wit = wi(t+k) (k periódus a TDNN-el detektálható maximális hullámhossz) A rejtett mezőből teljes előrecsatolás irányul az output mező felé, ahol az idősorok előrejelzése megjelenik. A hálózat vissza- csatolással tanul. Egy rejtett mező esetén olyan autoregresz- sziós modellsorozattal analóg a működése, amelyet az idő-sorokból képzett faktorokon definiáltak. Több rejtett mező e-setén Fourier-transzformáltakhoz (lásd: Session27) hasonló modellezésre képes, számolásigénye viszont óriási, és a ta-nulás konvergenciája felettébb bizonytalan. A jelenlegi veze-tő brókercégek által alkalmazott árfolyamelőrejelző rendsze-rek a TDNN hálózat valamely továbbfejlesztésén alapulnak, pl. fuzzy rendszerekkel történő kombinálással (Session33)
Az előadás tartalma Mesterséges idegsejt hálózatok: • Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok • Momentumos, Kötegelt/tagosított, Zajosított, Súly lecsengetéses visszacsatolásos tanulás • Visszacsapásos tanulás • Gyors visszacsatolásos tanulás • Konjugált gradiens módszer • Gradiens származtatás algoritmus • Szimulált hűtés • Genetikus algoritmus • Előjelfüggvényes, adaptív súly lecsengetéses visszacsatolásos tanulás • Visszacsatolásos tanulás idősorokon • Rekurrens hálózatok, Időbeli visszacsatolásos tanulás • Időbeli eltolásos hálózatok • Radiális bázisfüggvényű hálózat • Topológiája • Aktivációja és tanulása • Értékelése és grafikai szemlélete • Továbbfejlesztései: Dinamikus lecsengetés/ Adaptív vektor kvantizáció • Alakfeltérképező hálózat • Kohonen-féle alakfeltérképező • Fuzzy rendszer Kohonen-alakfeltérképezőből • Kompetitív backpropagáció • Topológiája, aktivációja és tanulása • Esettanulmány: Az I. Spam Világháború • Karakterfelismerési példa • Adaptív rezonancia hálózat • Célja, topológiája, aktivációja és tanulása • Kaszkád-korrelációs tanulás • Szakirodalom
vh x2 x1 vh x2 x1 Radiális bázisfüggvényű hálózatok 1 • A radiális bázisfüggvényt használó (Radial Base Function, RBF)hálózatok célja, hogy a biológiai analógiához képest jelentősen leegyszerűsítet hálózati topológia és aktiváció használatával modellezzenek bonyolult nemlineáris vezérlési függvény felületeket, nem felügyelt tanulással • Az alapgondolatuk nem is igazán kötődik neurális hálózatokhoz, hanem sokkal általánosabb: i=1..n input változókból álló whh=1..H pontokhoz ( ) vh [0,1]valós súlyokat ( ) rendel, és a koordinátapontok súlyozott összegeként állítja elő az s* output értéket. • A a linearizált programozási feladatok tárgyalása során (lásd: Session25) már említésre került, hogy a Shvh = 1,h=1..H(31.8) súlyrendszer feltétel mellett a koordináta pontok egy konvex poliédert definiálnak. • További súlyokra vonatkozó feltételek bevezetésével egyre specifikusabb alakzatok írhatók fel. Például, ha h=1..H pontokat sorban egymás után térben szomszédosnak tekintjük, akkor a vh lh+lh+1, lh{0,1} h=1..H, (31.9) Shlh = 1 (31.10) feltételrendszer a szomszédos pontokra kifeszített, szakaszonként lineáris függvényt definiál. • Ezt a koordináta pontokhoz definiált, a súlyukat az input térben leíró bázisfüggvényekkel (Base Funcion) is megjeleníthetjük. Szakaszonként lineáris függvénygörbéhez a bázisfüggvények a szomszédos pontok közti szakaszok felett definiált, 50%-os átlapolású háromszög függvények.
vh x2 x1 Radiális bázisfüggvényű hálózatok 2 Folytonos nemlineáris vezérlési függvények megjelenítéséhez viszont radiális bázisfügvényekre (Radial Base Function, RBF) van szükség: • xi i=1..n input változók nemlineáris, nemnegatív függvénye, mely kör alakú szintvonalakkal rendelkezik, • Maximumát a wh koordináta pont felett veszi fel, a maximum értéke a pont vh súlyától függ, • wo koordináta ponttól mért d(x, wh)euklideszi távolsággal (Euclidean distance) fordítottan arányosan változik. Fajtái lehetnek: • Haranggörbe: SWh(x) = vh × Exp(-d(x, wh)2) (31.11) • Exponenciális görbe: SWh(x) = vh × Exp(-d(x, wh)) (31.12) • Reciprok görbe: SWh(x) = vh / (1 + d(x, wh)) (31.13) • Ahol: • A ponttól mért euklideszi távolság: d(x, wh)= (Si(xi* - whi)2)0.5 (31.14) • A klaszterezések kapcsán (lásd: Session17) szó volt már róla, hogy az Euklideszi távolság torzít, ha normalizálatlan változókon használják, ezért használata előtt előállítjuk a 0 várható értékre, 1 szórásra normalizált xi* input változókat j=1..m korábbi megfigyelés ( ) átlaga és szórása felhasználásával: xi*= (xi-Avgj (yij))/Stdevj(yij) i=1..n (31.15)
1 So(xo) 3 xot -3 0 Sh vh vh vh vh bh Sh(xht) 1 -1 -1 bh bh Sh(xht) Sh(xht) ah xht 0 1 1 Si -1 -1 bh ah xht Sh(xht) 0 1 ah 1 xht 0 1 Si Si -1 -1 wih wih ah xht 0 wih wih wih wih Si wih wih 1 So(xot) Sc(xct) Sc(xct) 3 36 36 1 1 xot -3 0 Sh xct xct 0 0 0 0 -3 +3 Összehasonlító mező Si Si Sh(xht) Sh(xht) -1 72 -1 72 -6 xht xht 0 0 6 Si Si 1 1 Si(xit) Si(xit) 1 Si(xit) 3 3 3 0 xit xit -3 -3 0 xit -3 0 x1 x2 x1 Az RBF hálózatok topológiája • i=1..n lineáris input neuronokxi,si[-3,+3] jelzési tartományban, mivel az N(0,1) normalizált, folytonos input változók kis valószínűséggel vesznek fel ezen kívül értéket • Belőlük direkt gátló előrecsatolás megy c=1..n parabola jelzési függvényű összehasonlító mezőbe (Comparison Field). Ezt az egyszerűbb leírásokból kihagyják. • Parabolikus jelzési függvény a biológiában nem létezik, de 1 lineáris input, 2db egymásnak ellentett S-görbés rejtett, 1 lineáris output neuronból álló alhálózattal (Subnet) könnyen elő lehet állítani • Az összehasonlító mező az ih kétirányú mezőközi csatolás wh súlyvektorai és az x input jelzés közti négyzetes euklideszi távolsággal arányos jelzést ad ki az ih csatoláson keresztül. • A h=1..H rejtett mező felé, mely ellentett S-görbés, Sh[0,1] jelzési értékű neuronokból áll, amik közt teljes mezőn belüli kompetitív összecsatolás van. Ezek a neuronok a hozzájuk tartozó wh súlyvektorok révén input térbeli koordi- náta pontokként jelennek meg, melye- ket a tanulás igyekszik majd az yj j=1..m mintaadatbázis klaszter- centrumaira helyezni • Belőlük teljes előrecsatolás irányul az 1db lineáris, additív output neuron felé. Ennek vh súlyai ábrázolják a rejtett mező koordinátapontjainak output koordinátáját
1 So(xo) 3 xot -3 0 Sh vh vh vh vh bh Sh(xht) 1 -1 -1 bh bh Sh(xht) Sh(xht) ah xht 0 1 1 Si -1 -1 bh ah xht Sh(xht) 0 ah xht 0 1 Si Si -1 -1 wih wih ah xht 0 wih wih wih wih Si wih wih Sc(xct) Sc(xct) 36 36 xct xct 0 0 0 0 Összehasonlító mező Si Si -1 -1 1 1 Si(xit) Si(xit) 3 3 0 xit xit -3 -3 0 x1 x2 Az RBF hálózatok aktivációja és tanulása 1. LÉPÉS: e=1..E epochban, yjj=1..m mintánál: az i=1..n input mezőből az összehasonlítóba jut az input jelzések -xij ellentettje 2. LÉPÉS: a h=1..H rejtett neuronok aszinkron módon, sorban egymás után tüzelnek: az ih összeköttetésen keresztül visszacsatolják a wihje input térbeli koordinátáikat az összehasonlító mezőbe, ami összeadja őket az input ellentetjével, és a parabolikus jelzési függvény miatt a különbségeket négyzetre emeli: Scj=(wihje-xij)2 c=1..n (31.16) Majd az összehasonlító mező visszadja a négyzetes elté- réseket az adott h rejtett neuronnak, ami összegzi őket és előállítja a négyzetes euklideszi távolsággal fordítva arányos jelzést:Shj=Exp(-Sc(wihjeScj)) (31.17) 3. LÉPÉS: Output mező Shj rejtett jelzésekkel súlyozva összegzi a vhje output koordinátákat Sojoutput értkéhez: Soj=Sh(vhje × Shj) (31.18) 4. LÉPÉS: A győztes rejtett neuron kiválasztása, aki tanulni fog: a kétirányú kompetitív mezőközi csatolásokon keresz- tül a rejtett neuronok elkezdik több iteráción keresztül csök- kenteni egymás jelzéseit, míg csak h*max. jelzésű marad: h*| Sh*j=Maxh(Shj) (31.19) 5. LÉPÉS: Tanulás: az xj input vektorhoz legközelebbi wh*je koordináta pontú győztes neuron g[0,1] tanulási rátával ará- nyosan elmozdul annak irányába: wh*(je+1) = gSh*j× xj + (1- gSh*j) × wh*je (31.20) Hasonlóképp módosul a vhje output súly: vh*(je+1) = gSh*j × yoj + (1- gSh*j) × vh*je (31.21) (A wh, vh súlyok kezdetben random értéket vesznek fel)
Input tér és neuronok • Teljes előrecsatolás • Rejtett neuronok • Bázisfüggvények • mint Fuzzy • szabályok • Előrecsatolás • Output • neuron m(Iskolaévek,Jövedelem) 100E 200E 4 300E Jöved, Ft 400E 8 12 bh bh bh 16 Sh(xht) Sh(xht) Sh(xht) uh uh uh 20 Isk.év 24 ah ah ah xht xht xht lh lh lh Sj Sj Sj bi bi bo Si(xit) Si(xit) So(xo) ui ui ui ao ai ai xit xot xit li li li Sh Input Input Az RBF hálózatok értékelése és grafikai szemlélete • A rejtett mező működése k-közép klaszterezéssel analóg (lásd: Session17), • Ezért csak kompakt, konvex hiperpoliéderekkel elhatárol-ható csoportokat tud megta-nulni, és az adatbázist előze-tesen normalizálni kell. • Viszont sokkal konvergen-sebben tanul, mint egy ha-sonló képességű, bár nor-malizációt nem igénylő, 3 mezős perceptron • Tanulása még gyorsabb lehet, ha a wih összeköt-tetési súlyokat külön k-közép klaszterező algoritmus állítja • Ekkor az optimális vh súlyok gradiens algoritmussal gyorsan kiszámíthatók • A klaszter centrumok fölé definált RBF függvények erősen kompenzáló, radiális szintvonalú fuzzy hipergúlák-ként (Radial Fuzzy Rule) is felfoghatók, és az output mező működése analóg a CoM defuzzifikációs mód-szerrel (lásd: Session28), ezért az RBF-el fuzzy rend-szer építhető automatikusan • Az ábrán látható, hogy az input neuronokból előrecsatolás által definiált koordináta pontokban magasodó RBF függvé-nyekből az output mező a CoM defuzzifikációhoz hasonló mó-don számítja ki a vezérlési függvényt. Az összehasonlító mezőt az ábráról az áttekinthetőség kedvéért lehagytuk.
m(Iskolaévek,Jövedelem) 100E 200E 4 300E Jöved, Ft 400E 8 12 bh bh bh bh bh bh 16 Sh(xht) Sh(xht) Sh(xht) Sh(xht) Sh(xht) Sh(xht) uh uh uh uh uh uh 20 Isk.év 24 ah ah ah ah ah ah xht xht xht xht xht xht lh lh lh lh lh lh Sj Sj Sj Sj Sj Sj Az RBF hálózatok továbbfejlesztései Dinamikus lecsengetés / adaptív vektor kvantizáció (Dynamic Decay/ Adaptive Vector Quantization): • Feltételezzük, hogy a klasztercentrumok RBF-je-i erősen átlapolják egymást mert az adatbázisban elnyújtott klaszterek vannak jelen, és ezért bizonytalan lenne a becslés • Egy hipertórusz alakú konfliktus zónát definiál a klasztercentrum köré, az RBF értékeinek megválasztásával, pl.: MinRBF=0.4, MaxRBF=0.7 • Ebben a zónában nem szabad más klaszter centrumnak előfordulni • Ezért a tanulás közben dinamikusan változtatja az RBF-ek rádiuszait, amit a rejtett neuronok ahjelzési határértékének tologatásával ér el • Így mindig csak a győztes rejtett neuron Sh* jelzési értéke fog a MaxRBF paraméter fölé menni, a többié alatta marad, ezért egyértelműbben lehet győztest hirdetni és azt tanítani • Továbbá, nem egyszerre használja az összes h=1..Hrejtett neuront, vagyis klaszter centrumot, hanem egyenként adja hozzá a rendszerhez, ha az eddigi centrumoktól nagyon távol eső kilógó (Outlier), yj mintavektorokat kap. Ezzel a később ismertetett ART hálózatokhoz hasonló trükkel jelentős számolásigényt takarít meg. • Előnye:Nagyon gyorsan tanul, 5-6 epochban • Hátránya:Túl sok rejtett neuronnal dolgozik, amelyeknek sokszor picire összerántja RBF-jét
Az előadás tartalma Mesterséges idegsejt hálózatok: • Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok • Momentumos, Kötegelt/tagosított, Zajosított, Súly lecsengetéses visszacsatolásos tanulás • Visszacsapásos tanulás • Gyors visszacsatolásos tanulás • Konjugált gradiens módszer • Gradiens származtatás algoritmus • Szimulált hűtés • Genetikus algoritmus • Előjelfüggvényes, adaptív súly lecsengetéses visszacsatolásos tanulás • Visszacsatolásos tanulás idősorokon • Rekurrens hálózatok, Időbeli visszacsatolásos tanulás • Időbeli eltolásos hálózatok • Radiális bázisfüggvényű hálózat • Topológiája • Aktivációja és tanulása • Értékelése és grafikai szemlélete • Továbbfejlesztései: Dinamikus lecsengetés/ Adaptív vektor kvantizáció • Alakfeltérképező hálózat • Kohonen-féle alakfeltérképező • Fuzzy rendszer Kohonen-alakfeltérképezőből • Kompetitív backpropagáció • Topológiája, aktivációja és tanulása • Esettanulmány: Az I. Spam Világháború • Karakterfelismerési példa • Adaptív rezonancia hálózat • Célja, topológiája, aktivációja és tanulása • Kaszkád-korrelációs tanulás • Szakirodalom
kq kq woô woô bo bo bo bo kq kq So(xot) So(xot) So(xot) So(xot) uo uo uo uo woô woô q1 q2 ao ao ao ao xot xot xot xot lo lo lo lo woô Si Si Si Si woô wio wio wio wio wio wio wio wio bi bi Si(xit) Si(xit) ui ui ai ai xit xit li li x2 x1 Alakfeltérképező hálózatok Az Alakfeltérképező hálózatok (Self-Organizing/Feature Maps, SOM) célja: • i=1..n dimenziós input térből (n≥2, akármennyi lehet) képezzenek le alakzatokat • q=1..Q dimenziós output térbe (Q2..3, az output dimenziószáma korlátozott, a számolásigény robbanásszerű növekedése miatt), • A helyes leképezést nem felügyelt tanulás révén tanulják meg, • Egy 0 várható értékre és 1 szórásra normalizált xii=1..n folytonos döntési változókból álló xj j=1..m mintaadatbázis segítségével. • Tipikus alkalmazásuk, hogy egy 2 dimenziós, nemlineárisan torzított képet (pl. el van csavarva, vagy hullámosítva) leképezzenek egy 2 dimenziós torzítatlan képpé. De magasabb dimenziószámból is leképezhetnek 2..3-ba, vezérlési függvény modellezéskor. A legelterjedtebb Kohonen-alakfeltérképező (Kohonen SOM) topológiája: • i=1..n lineáris input neuron, mindegyik egy döntési változó • io teljes előrecsatolás az o=1..O output neuronok felé, a wio szinaptikus súlyok ezek input térbeli wo koordi- nátáit alkotják, kezdetben random értéket kapnak. • Az output neuronok egy Q dimenziós output térrácsba (Space Grid) rendezettek: • q=1..Q output dimenzió mindegyikét kq=1..Kq darab osztópontra vágjuk • Az osztópontok számát (általában {3..9}) azonos módszerekkel állapítjuk meg, mint a fuzzy értékek számát egy fuzzy nyelvi változón belül (lásd: Session28) • A térrács pontjai a dimenziónkénti osztó- pontok Descartes-szorzataként (Cartesian product) jönnek létre: O=PqKq (31.22) • Az output neuronok közt oô teljes mezőn belüli két- irányú összecsatolás van: Az output térrácsbeli (és nem az input térbeli!) koordinátáik szerint: • Közeli neuronok közt gerjesztő: woô>0, • A kicsit távolabbiak közt gátló: woô<0, • A nagyon távoliak közt semleges: woô0
Gauss haranggörbe Negatív parabola Mexikói kalap × de x2 x1 Kohonen alakfeltérképező működése 1 1. LÉPÉS: e=1..E epochban, yjj=1..m mintánál: az i=1..n input mezőbe töltődnek xi* normalizált, folytonos döntési változók 2. LÉPÉS: az x input koordinátákoz legkisebb euklideszi távra eső woje koordinátájú output neuron lesz az o* győztes: o*|d(x, wo*je) = Mino(d(x, wo*je)) (31.23) ahol: d(x, woje)= (Si(xi* - wioje)2)0.5 (31.24) (Ez a fajta művelet előrecsatolásnál elvi- leg nem lehetséges, de könnyen elő lehet állítani az RBF hálózatok összehasonlító mezős topológiájával, amit itt kihagytunk) 3. LÉPÉS: Tanulás: • Az o=1..O neuronok output térrácsbeli euklideszi távolsága o* győztestől: Doje= (Sq(kqo* - kqo)2)0.5 (31.25) • de szélességű Mexikói kalap (Mexican Hut) függvény a térrács-távolságokon: Moje=Exp(-Doje2/de2)×(1-Doje2/de2)(31.26) ahol:de=1/g/e epochonként csökkenő szélesség • Az Moje rácstávval változó előjelei miatt a győztes, illetve az output térrácsban hozzá közel állók az input vektor felé (+) mozdulnak az input térben, a távoliak tá-volodnak(-)(g tanulási rátával arányosan), a nagyon távoliakkal nem történik semmi: • wo(je+1)= g×Moje×(x - woje) + woje (31.27) Az output térrács működése input térbeli sajtra vágyó egerekre hasonlít, akik szomszé-daikat gumihálóba kötve húzzák, a távo-labbi egereket rugalmas nyilakkal böködik
Input tér és neuronok • Teljes előrecsatolás • Output neuronok • Output térrács • Fuzzy értékek KözépMagas m(Iskolaévek,Jövedelem) KözépAlacsony KözépÁtlag KözépAlacsony 100E KözépÁtlag 200E 4 300E Jövedelem 400E 8 KözépMagas 12 bk bk bk bk bk bk bk bk bk 16 Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) uk uk uk uk uk uk uk uk uk 20 Iskola 24 ak ak ak ak ak ak ak ak ak xkt xkt xkt xkt xkt xkt xkt xkt xkt lk lk lk lk lk lk lk lk lk bilo Sj Sj Sj Sj Sj Sj Sj Sj Sj bi bi Si(xit) Si(xit) ui ui ai ai xit xit li li Input Input Kohonen alakfeltérképező működése 2 • Lényeges, hogy a mexikói kalap függvény miatt egyszerre vannak jelen vonzó (+) és taszító (-) szi-napszisok az output térrácsban. Az utóbbiak nélkül a térrács a vonzás miatt lassan összeomlana a mintaadatbázis súlypontjába. • A de kalap szélesség kezdetben nagy, így a véletlen koordináta pontokból álló, össztekere- dett output térrács gyor- san felveszi a minta el- oszlás input térbeli alak- ját, majd az epochok so- rán de csökken, így a rács Ljapu- nov-stabil állapotba kerülhet. • A betanított rendszer outputja x in- puthoz a győztes neuron ko* rács- koordinátája. Ezzel klaszterezési funkciót lát el:yj megfigyeléseket( ) o térrács pontokhoz, mint wo input térbeli koordinátával( ) rendelkező klaszter centrumokhoz csoportosít. • Ez a klaszterezés az RBF hálózat-étól eltérően elnyújtott, nem kom-pakt klasztereket is kiválóan kezel. • A térrács egyfajta „gumiregresszió-ként” is működik, az input döntési változók közti bármilyen típusú függvénykapcsolat felderítésére: • Ennek lokális meredekségi együtthatói o,ô szomszéd rácspontok közt, i független, l függő változók szerint: • bilo = (wlo-wlô)/(wio-wiô) (31.28) • A térrács fuzzy szabályok és fuzzy szótár automatikus definiálására is alkalmas: a rácspont a fuzzy hipergúla értékeinek csúcsa, szomszédai definiálják a tartójukat
z bk bk bk bk bk bk bk bk bk Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) uk uk uk uk uk uk uk uk uk y ak ak ak ak ak ak ak ak ak xkt xkt xkt xkt xkt xkt xkt xkt xkt lk lk lk lk lk lk lk lk lk Sj Sj Sj Sj Sj Sj Sj Sj Sj alacsony bi bi bi Si(xit) Si(xit) Si(xit) közepes ui ui ui m(x) x magas ai ai ai xit xit xit li li li Input Input Input • Az ábra 3 változós (x, y, z) input térbeli minta eloszlás-ra( ) idomuló 2 dimenziós, 3×3-as térrácsot mutat • Az alakfeltérképező gyakran használatos magasabb dimenzió- • számú terekből 2..3-ba tör-ténő leképezésre vezérlési függvény modellezésénél. • A rácsra 3 dimenziós fuzzy hipergúlák definiálhatók( ), melyek „befele sűrűsödő” téglatestként jelennek meg. • Minden hipergúla beírja az összeállításához szüksé-ges fuzzy értékeket a fuzzy nyelvi változókba, így olyan fuzzy rendszer készül, mely nem szabálysúlyozás vagy nyelvi módosítók révén éri el a finombeállítást, hanem rengeteg egyedi fuzzy érték révén, amit kézzel nehéz lenne definiálni. Ezek után a sokkal gyorsabb, alacsony számolásigényű fuzzy rendszer használható becslésre a Kohonen hálózat helyett. Fuzzy rendszer Kohonen alakfeltérképezőből • Mindezek miatt a Kohonen- alakfeltérképező lesz a később a Session33-ban ismertetésre kerülő neuro-fuzzy rendszerek (Neuro-Fuzzy Systems) egyik lehetséges kiindulási alapja
Előnyei: • Sokkal jobban kezeli az elnyújtott klasztereket, és hatékonyabb fuzzy rendszer definiálható vele, mint az RBF-ekkel, mert nem csak kompakt klaszterekhez alkalmas radiális függvényeket használ, hanem térrácsot • Emellett regressziós elemzésre is alkalmas, míg az RBF nem. • Egyszerűbb a topológiája és az aktivációja az RBF-nél, mert elszakad a biológiai analógiától Hátrányai: Kevésbé konvergens a tanulása, mint az RBF-é, a térrács megcsavarodhat s nem ér el Ljapunov-stabil állapotot (a térrács mozgásának szemléltetésére a szakirodalomban található egy internetes java applet). Ezért sok rendszerben a térrács „sarok neuronjait” lehorgonyozzák a koordináta rendszer sarkaihoz m(Iskolaévek,Jövedelem) 100E 200E 4 300E Jövedelem 400E 8 12 16 20 Iskola 24 A Kohonen-hálózat értékelése és összehasonlítása más hálózatokkal • Csak alacsony dimenziószámúoutput tereket tud kezelni, mert a térrácshoz szükséges neuronok száma, és a számolásigény magasabb dimenziószámban felrobban • Mind a Kohonen, mind az RBF hálózatot súlytja a klaszterezési módszereknél ismertetett koncentrációs probléma (lásd: Session18): csak folytonos változókat kezelnek, ha az értékek koncentrálódnak, vagyis a változó lehetséges értékeinek száma jóval kisebb mint a megfigyeléseké, akkor összezavarodnak. • Mindketten normalizált adatbázist igényelnek. • A Kohonen hálózattal definiált fuzzy rendszer által lerakott fuzzy hipergúlák kevésbé hatékonyan képesek átlós helyzetű vezérlési függvényeket modellezni, mint egy 4 mezős perceptron a térben forgatható fuzzy hiperpoliédereivel (lásd: Lesson30) • De a Kohonen-hálózat sokkal konvergensebb a perceptronnál, • Az viszont kevéssé érzékeny a koncentrációra, és nem igényli az adatbázis normalizálását, mert nem használ euklideszi távolságokat
wop wop wop wop kq wop kq wop wop wop woô woô bo bp bp bo bo bo kq kq Sp(xpt) So(xot) So(xot) So(xot) So(xot) Sp(xpt) up uo up uo uo uo woô woô q1 q2 ap ao ao ao ao ap xpt xot xpt xot xot xot lp lo lo lo lo lp woô Si Si Si Si So So woô wio wio wio wio wio wio wio wio bi bi Si(xit) Si(xit) ui ui ai ai xit xit li li x2 x1 Kompetitív backpropagációs hálózatok 1 A kompetitív backpropagációs hálózat (Counterpropagation) egy p=1..P perceptron típusú mező beépítése a Kohonen-háló fölé op Sanger-féle teljes előrecsatolással, melynek célja, hogy több klasztercentrumból álló, előre definiált komplex alakzatokat ismerjen fel a Kohonen-alakfeltérképező output térrácsában, felügyelt tanulással (pl. 2 dimenziós, torzított pixel térrácsban különféle karakterek képeit, optikai karakterfelismerési (Optical Character Recognition, OCR) alkalmazásokban) • Ezáltal a hálózat képessé válik nemcsak elnyújtott, de konkáv, sőt nem folytonos térrészekben elhelyezkedő klaszterek felismerésére (pl. az „ö” karakter képének felismerésekor a két különálló pontocskát is fel kell ismerni). Így felismerési kapacitása (Cognitive Capacity) egyenrangúvá válik a 4 mezős perceptronéval, de sokkal gyorsabb, konvergensebb tanulás révén. • A Kohonen-hálórész topológiája, aktivációja, tanulása teljesen megegyezik a fentebb leírtakkal. A perceptron mező a szokott módon, delta szabállyal tanul (lásd: Lesson30), de mindig csak az o* győztes Kohonen-neuronból kiinduló wo*pp=1..P súlyait módosíthatja • Kezdetben a wop súlyok is random értéket vesznek fel. A Kohonen-hálórész nem felügyelt tanítása megelőzheti a perceptron tanítását, mert az akkor tud csak konvergensen tanulni, ha a térrács már elérte a Ljapunov-stabil állapotot
P/E/N/I/S/ /E/N/L/A/R/G/E/M/E/N/T 31.1.Esettanulmány: Az I. Spam Világháború • A borzalmas, II. világháborús, szója alapú amerikai konzerv sonka után Spam-nek keresztelt marketing vagy politikai célú levélszemét 2006-ban 70%-át tette ki a világ e-mail forgalmának, több milliárd $-os kárt okozva az olvasásuk miatt kieső munkaidővel, a szerverek terhelésével, vírusok terjesztésével, stb. • A válaszul kifejlesztett első spamszűrők jellemző szavakat (pl. Viagra, Sex, Porn, Penis, xxx) kerestek a levélszövegekben, mire a spammerek több száz féle szövegtördelési/beszúrási trükkel válaszoltak, ennek azonban határt szabott az egyszerű amerikaiak gyatra olvasási készsége, illetve a szövegszűrők fejlődése. • A következő trükk szövegek elhelyezése volt csatolt képfájlokban, azonban ezeket a szűrők könnyen azonosították a változatlan tartalom miatt. Ezután a spammerek pici random zavaró jelekkel, animációkkal, darabolással próbálták azonosíthatatlanná tenni a képeket, de ezek egyszerű statisztikai módszerekkel (pl. pixelek mozgóátlagolása-simítása) detektálhatók • 2005 közepén a spammerek teljesen átváltottak a kép-transzformációs trükkökre. Rájöttek ugyanis, hogy ha valaki olvasni nem is tud jól, de az emberi szem és látókéreg még mindig messze ver minden karakter-felismerő szoftvert. A levélszövegek már csak semmit-mondó zagyvalékok, pl. könyvekből összevágott sorok, melyről a szövegelemzők elhiszik, hogy valódi levél. • A képekre szisztematikus zavarójeleket tesznek (pl. háttér csíkozása), melyek hazavágják a csak random zajokat szűrő, eloszlásfüggő statisztikai módszereket • Vagy darabolják/nemlineárisan torzítják a karaktereket
Y bk bk bk bk bk bk bk bk bk bk bk bk bk bk bk bk bk bk bk bk bk Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) Sk(xkt) uk uk uk uk uk uk uk uk uk uk uk uk uk uk uk uk uk uk uk uk uk ak ak ak ak ak ak ak ak ak ak ak ak ak ak ak ak ak ak ak ak ak xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt xkt lk lk lk lk lk lk lk lk lk lk lk lk lk lk lk lk lk lk lk lk lk Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj Sj bi bi Si(xit) Si(xit) ui ui F ai ai xit xit li li X Input Input Counterpropagation 2 • A spamszűrő OCR modulja olvasható szövegeket keres a képen. Hierarchikusan egymásba ágyazott Kohonen-hálók térrácsaival először hasábokra, majd bekezdésekre, majd sorokra, majd karakterekre bontja a „szöveggyanús” képet • Mi itt egy torzított „F” karakter felismerésére mutatunk példát: a térrács tanulás közben ráidomul az (x,y) koordinátákra bontott pixelhalmazra • Az F az output térben már torzítatlanul jelenik meg (lásd pixel-neuronok), így innen a perceptron mező F-re betanított neuronja könnyen felismerheti.
Az előadás tartalma Mesterséges idegsejt hálózatok: • Továbfejlesztett visszacsatolásos tanulást alkalmazó hálózatok • Momentumos, Kötegelt/tagosított, Zajosított, Súly lecsengetéses visszacsatolásos tanulás • Visszacsapásos tanulás • Gyors visszacsatolásos tanulás • Konjugált gradiens módszer • Gradiens származtatás algoritmus • Szimulált hűtés • Genetikus algoritmus • Előjelfüggvényes, adaptív súly lecsengetéses visszacsatolásos tanulás • Visszacsatolásos tanulás idősorokon • Rekurrens hálózatok, Időbeli visszacsatolásos tanulás • Időbeli eltolásos hálózatok • Radiális bázisfüggvényű hálózat • Topológiája • Aktivációja és tanulása • Értékelése és grafikai szemlélete • Továbbfejlesztései: Dinamikus lecsengetés/ Adaptív vektor kvantizáció • Alakfeltérképező hálózat • Kohonen-féle alakfeltérképező • Fuzzy rendszer Kohonen-alakfeltérképezőből • Kompetitív backpropagáció • Topológiája, aktivációja és tanulása • Esettanulmány: Az I. Spam Világháború • Karakterfelismerési példa • Adaptív rezonancia hálózat • Célja, topológiája, aktivációja és tanulása • Kaszkád-korrelációs tanulás • Szakirodalom
Adaptív rezonancia hálózatok (Adaptive Resonance Theory, ART): az RBF-hez hasonló topológiájú hálózat, annak egy neuronból álló output mezője nélkül. Célja, hogy nem felügyelt tanulással k-közép klaszterezést végezzen folytonos döntési változókon, és nem tartozik hozzá vezér-lési függvény modellezés,mint az RBF-nél. • A backpropagációs hálózatokhajlékony-sági-stabilitási dilemmáját (Plasticity-Stabi-lity Dilemma) akarja feloldani. Ez két, egy-másnak ellentmodó követelményt takar, amit azok képtelenek egyeztetni: • Hajlékonyság: a hálózat gyorsan tanuljon meg nagymennyiségű új input mintát • Stabilitás: ez ne tegye tönkre a régebbi klaszterek felismerését • Az ART úgy oldja fel ezt az ellentmon-dást, hogy nem fix számú neuront (vagyis klaszter centrumot) használ a kompetitív o=1..O output mezőben ( ), és egy • r=1..R tartalék mezőből ( ) folyamatosan adagolja őket ( ), ha az addigi centrumok-hoz képest nagyon kilógó mintát (Outlier) • ( ) kap, ami kívül esik azok felbontási sugarán (Vigilance) ( ), és nem a már meglévő centrumokat húzza el a • helyükről a nagy semmibe • Fajtái: ART-1: csak bináris • inputokat, ART-2: folytonos • inputokat kezel, lássuk ezt: Y X br bo br bo bo Sr(xrt) So(xot) Sr(xrt) So(xot) So(xot) uo ur uo ur uo ar ao ar ao ao xrt xot xot xrt xot lo lr lo lo lr SiSh SiSh SiSh SiSh SiSh bi bi Si(xit) Si(xit) ui ui Vigilance ai ai xit xit li li Input Input Adaptív rezonancia hálózatok 1
-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Tartalék mező Output mező 0 0 -1 1 -1 -1 -1 -wrc=wir:=si -wrc=wir:=si wio= -woc wio= -woc wio= -woc wio= -woc Sc(xct) Sc(xct) wio= -woc wio= -woc uc uc bh br br bo bo bo So(xot) Sr(xrt) So(xot) So(xot) Sr(xrt) Sh(xht) ur ur uo uh uo uo xct xct 0 0 0 0 Si Si Toborzó neuron ar ao ao ar ao ah xrt xot xot xrt xot xht lo lo lr lo lr lh Sc SiSh SiSh SiSh SiSh SiSh 1 1 bi bi Si(xit) Si(xit) ui ui 1 1 Összehasonlító mező ai ai xit xit li li Input Input Input mező • A lineáris i input mező minden neuronja egy döntési változó. • Teljes előrecsatolás köti össze • az S-görbés o output mezővel, mely neuronjai csoportközepek • Ez kompetitív belső csatolású, • És van egy r tartalék része. • Az outputtól az előrecsatolásnak ellentett súlyú visszacsatolás van • a pozitív parabolikus jelzésű c összehasonlító mező felé, ami • az input jelzést is megkapja. • Ha az si input jelzés elég ha-sonló a győztes output neuron-ból visszacsatolt jelzéshez, az összehasonlító nem ad ki jelet, • és a győztes I/O közti csatolásai Hebb-szabállyal tanulnak: • wio(t+1)= gsiso+(1-g)wiot (31.29) • Különben, ha h toborzó neuron-ban aggregálódó különbség túllé-pi ahfelbontási határérték (Vigilance) paramétert, • ennek gátló előrecsatolásai ki-nyomják a győztes output cellát, így ott nem történik tanulás, • izgató előrecsatolása viszont ak-tiválja a tartalék mező következő r neuronját,aminek I/O csatolásai • betanulják az input jelet: • wir=si, wrc=-si, i=1..n (31.30) majd ez átkerül tartalékból az outputhoz. • A tartalék mező többi neuronja inaktív, I/O csatolási súlyai nullák ART működése
Perceptron mező wop Tartalék mező Rejtett mező (ART-2 output) br bo bp bo bp bp bo So(xot) So(xot) Sr(xrt) Sp(xpt) Sp(xpt) Sp(xpt) So(xot) uo ur up up uo up uo Sc(xct) Sc(xct) ar ao ao ao ap ap ap xpt xpt xpt xot xot xrt xot lp lr lo lo lo lp lp uc uc bh So So SiSh SiSh SiSh SiSh So Sh(xht) uh xct xct 0 0 0 0 Si Si ah xht lh Sc 1 1 Toborzó neuron bi bi Si(xit) Si(xit) 1 1 ui ui Összehasonlító mező ai ai xit xit li li Input Input Input mező Kaszkád-korrelációs hálózatok A Kaszkád-korrelációs hálózat (Cascade-Correlation Network) egy p=1..P perceptron típusú mező beépítése az ART-2 háló fölé op Sanger-féle teljes előrecsatolással, melynek célja, hogy több klasztercentrumból álló, előre definiált komplex alakzatokat ismerjen fel, felügyelt tanulással • A hálózat ART-2 részének működése megegyezik a fentebb leírtakkal, a perceptron mező pedig delta szabállyal tanul, minden o=1..O aktív neuronból kiinduló wop súlyt módosítván • Kognitív képességei a Counter-propagation-hoz hasonlatosak, azzal a különbséggel, hogy kevésbé hatékonyan detektálja az elnyújtott klasztereket. Míg a Counterpropagation alakfeltérképező része egy térrácsot feszít ezekre, a kaszkád korellációs hálózat ART-2 része sok kis radiális klaszter cenrummal igyekszik kirakni őket • Emiatt viszont gyorsabban, kovergensebben tanul, de a kompetitív mező mérete óriásira nőhet a sok kicsi, hozzáadott klasztercentrum miatt.
Szakirodalom 1 • Általános: • Bevezető magyarul: http://www.cs.ubbcluj.ro/~csatol/mestint/pdfs/neur_halo_alap.pdf • Könyv magyarul: Borgulya István: Neurális Hálózatok és Fuzzy Rendszerek, Dialog Campus, 1999 • Internetes tankönyv neurális hálózatokról: http://www.dlsi.ua.es/~mlf/nnafmc/pbook/pbook.html • Mesterséges intelligencia/Neurális hálózatok bibliográfia: http://liinwww.ira.uka.de/bibliography/Neural/art.html • Backpropagáció idősorokon: • Bevezető: http://www.dlsi.ua.es/~mlf/nnafmc/pbook/node28.html • Részletes elméleti leírás: http://axon.cs.byu.edu/~martinez/classes/678/Papers/Werbos_BPTT.pdf • BPTT hálózatok SNNS környezetben: http://www.lix.polytechnique.fr/~liberti/public/computing/neural/snns/UserManual/node163.html • Radiális bázisfüggvényű hálózatok: • Elméleti bevezető: http://www.anc.ed.ac.uk/rbf/intro/intro.html • Használatuk Neural Network Toolbox-ban: http://www.uweb.ucsb.edu/~weibin/nnet/radial72.html • Kohonen- féle alakfeltérképező hálózatok: • Elméleti bevezető: http://www.gc.ssr.upm.es/inves/neural/ann1/unsupmod/CompetLe/kohonen.htm • 3D demó Java Appletben: http://fbim.fh-regensburg.de/~saj39122/jfroehl/diplom/e-index.html
Szakirodalom 2 • Counterpropagation-hálózatok: • Spam trükkök gyűjteményei: http://www.process.com/techsupport/spamtricks.html, http://www.jgc.org/tsc/ • Elméleti bevezető és használata SNNS-ben: http://www.lix.polytechnique.fr/~liberti/public/computing/neural/snns/UserManual/node155.html • Minta forráskód C-ben: http://www.neural-networks-at-your-fingertips.com/cpn.html • Adaptive Resonance Theory-hálózatok: • Bevezető: http://en.wikipedia.org/wiki/Adaptive_resonance_theory, http://cns.bu.edu/Profiles/Grossberg/CarGro2003HBTNN2.pdf , http://cannes.itam.mx/Alfredo/English/Publications/Nslbook/MitPress/157_170.CH08.pdf (ebben alkalmazási példák is vannak) • Egyszerű ART forráskód C-ben: http://www.neural-networks-at-your-fingertips.com/art1.html • Kaszkád-korrelációs hálózatok: • Elméleti bevezető: http://www.psych.mcgill.ca/perpg/fac/shultz/cdp/Cascade-correlation_tutorials.htm • Használata SNNS-ben: http://www.lix.polytechnique.fr/~liberti/public/computing/neural/snns/UserManual/node164.html