200 likes | 306 Views
SUPPORT VECTOR NEURAL TRAINING. Aktívne učenie pomocou dynamického výberu trénovacích vektorov. I. Úvod. t ypická chybová krivka feedforward neurónových sietí - exponenciálny tvar, rýchlym poklesom chyby v počiatočných epochách
E N D
SUPPORT VECTOR NEURAL TRAINING Aktívneučenie pomocou dynamického výberu trénovacích vektorov
I. Úvod • typická chybová krivka feedforward neurónových sietí - exponenciálny tvar, • rýchlym poklesom chyby v počiatočných epochách • potom nasleduje takmer plochý dlhý chvost, chybová krivka siete sa znižuje len veľmi pomaly
na začiatku vezmeme v úvahu všetky trénovacie vektory • postupne vplyv vektorov, ktoré sú ďaleko od okrajov rozhodovania je obmedzený • pri konci učenia je len malé percento vektorov, ktoré sú blízko hyperplochy rozhodovania • po niekoľkých epochách, len tie dáta, ktoré veľmi prispievajú k učeniu
tento prístup prispieva ku zvýšeniu rýchlosti učenia • Pokusne sa sledovalo správanie viacvrstvového perceptrónu • Toto je forma aktívneho učenia, v ktorom učiaci algoritmus má vplyv na niektoré časti informácie, ktorú získame z vstupného priestoru • Vyvinul sa selektívny postupný učiaci algoritmus, ktorý vyjde z náhodnej podmnožiny trénovacieho súboru
Potom, čo sa dostupné príklady v trénovacom súbore ohodnotili, sa tie, čo dávali veľkú chybu pridali do trénovacieho súboru • Tento algoritmus bol testovaný na binárnom väčšinovom funkčnom probléme, nelineárnom funkčnom mapovaní a na rozpoznávaní ručne písaných číslic a dosiahol významné správne vysledky
II. Aktívne učenie dynamickým výberom trénovacích vektorov • Algoritmus podpory vektorov predstavuje pri učení modifikáciu štandardnej backpropagation procedúry • Jeho cieľom je redukovať množstvo trénovacích dát • ľadať len tie trénovacie vektory, ktoré sú naozaj potrebné na podporu učiaceho procesu
parametre sú aktualizované po prešírení trénovacích dát T, podľa rozdielu medzi cielovými a výstupnými hodnotami siete Yk - Mk(X; W) • Ak je rozdiel (X) =k|Yk - Mk(X; W)| je dostatočne malý, vzorka X bude mať zanedbateľný vplyv na trénovací proces
Vektory, pre ktoré plati (X)>min budú zahrnuté do aktuálnej trénovacej množiny a použité v nasledujúcej epoche • Počet vektorov vybraných pre učenie závisí kriticky na prahu min • Ak prah bude príliš nízky, bude zahrnutých najviac vektorov a najmenej bude uložených • Ak prah bude príliš vysoký, zahrnuté bude len málo vektorov, ktoré vedú k najväčším chybám
Počet súčasne vybraných podporných vektorov je citlivý indikátor • Ak sa tento počet po nasledujúcom výbere zvýši viac než 5% aktuálneho počtu vektorov, tak min sa musí znížiť, kým sa stabilizuje proces
SVTN algoritmus • 1) inicializácia parametrov siete W, = 0.01, εmin = 0, SV=T • Kým sa nenájde zlepšenie v poslednej Nminule iterácii DO • 2) optimalizuj parametre siete pre Nopt krokom až na Svdata • 3) spusť feedforward krok na T a urči celkovú správnosť a chyby, vezmi SV={X|(X) [min,1−εmin]}.
4) ak správnosť sa zväčší: • porovnaj aktuálnu sieť s predchádzajúcou najlepšou • vyber ten lepší ako aktuálne najlepší • brať nižšiu strednú kvadratickú chybu, ak počet chýb je rovný zvýšeniu min = εmin + ∆ε • 5) ak počet podporných vektorov |SV| sa zvýši na viac než 0.05 · |SV|, • εmin =εmin - ∆ε • znížiť ∆ε=∆ε/1.2
III. Numerické experimenty • Satellite Image data - pozostávajú z multi-spektrálnych hodnôt • pixel sa skladá z 3x3 susedov (obrázky získane zo satelitu Landsat Multi-Spectral Scanner) • trénovacia množina - 4435 vzoriek • testovacia množina - 2000
Skupiny dát • red soil (1072), • cotton crop (479), • grey soil (961), • damp grey soil (415), • soil with vegetation stubble (470) • very damp grey soil (1038 trénovacích vzoriek).
Presnosť testov • v projekte Statlog sa pohybovala od 71% (Naive Bayes) • až 91% (k-najbližší susedia) • MLP sa pohybovali na úrovni 86%.
Porovnanie výsledkov jednotlivých algoritmov na Satellite Image Data
Závislosť presnosti na tresholde epsilon vľavo trénovacia (horná) presnosť a testovacia (dolná krivka) presnosť; vpravo počet podporných vektorov
Konvergencia siete s 36 skrytými neurónmi s dynamickým výberom tresholdu espilon hore vľavo - MSE, hore vpravo – trénovacia (horná), testovacia (dolná krivka) presnosť; dole – počet support vectors
IV. Záver • Redukcia veľkosti dátovej sady použitej pri trénovaní vedie k zvýšenej presnosti a vyššej rýchlosti učenia. Aj keď existuje veľa algoritmov pre aktívne učenie, ten najjednoduchší, založený na odmietnutí trénovacích vektorov, ktoré nemajú žiadnu šancu prispieť k zmenám váh, vyzerá, že je celkom účinný.
SVNT algoritmus je obzvlášť užitočný v prípadoch, keď jedna trieda prevyšuje všetky ostatné. • V prípade problému hypothyroid množstvo vektorov bolo pomerne malé, okolo 1.2% z celej trénovacej množiny.