510 likes | 806 Views
Agenti koji mogu da uče iz iskustva. Osnovna ideja učenja. Opažaji se ne koriste samo za donošenje odluka o budućim akcijama, već takođe i za učenje – unapređivanje mogućnosti agenata za bolje reagovanje u budućnosti
E N D
Osnovna ideja učenja Opažaji se ne koriste samo za donošenje odluka o budućim akcijama, već takođe i za učenje – unapređivanje mogućnosti agenata za bolje reagovanje u budućnosti Učenje se vrši paralelno sa opažanjem, interagovanjem sa svetom i rezonovanjem – zaključivanjem – donošenjem odluka Nivoi učenja mogu biti od najnižih kada se prosto memoriše ono što je viđeno, pa sve do najviših oblika – kao na pr. kreiranje novih naučnih teorija
Induktivno učenje Induktivno učenje podrazumeva saznavanje suštinski novih sadržaja na osnovu posmatranja Za razliku od induktivnog učenja, deduktivno učenje podrazumeva izvođenje logičkih zaključaka na osnovu već postojećeg znanja, tako da deduktivno učenje – zaključivanje ne može dovesti do suštinski novog znanja kao induktivno učenje Istovremeno, induktivno učenje je složenije i ne podleže “elegantnom” i kontrolisanom izvođenju zaključaka iz baze znanja. Induktivnim učenjem se saznaju, dolazi se do novih aksioma baze znanja koji se ne mogu logički izvesti iz postojećih aksioma – rečenica baze znanja
Vidovi učenja Vid – forma učenja je određena sledećim elementima: Koje nove komponente ponašanja treba naučiti Kojom vrstom povratne sprege se to omogućava Kakva reprezentacija se za to koristi
Komponente ponašanja Direktno povezivanje uslova – opažaja u tekućem stanju sa akcijama Zaključivanje o relevantnim svojstvima okruženja na osnovu sekvence opažaja Informacije o tome kako se menja okruženje i o rezultatima akcija koje agent može da preduzme Pomoćne informacije koje ukazuju na povoljnost stanja okruženja Informacije o povoljnosti akcija Ciljevi koji opisuju klase stanja čije ostvarivanje maksimizuje korisnost agenta
Povratna sprega Povratna sprega zatvara krug: nepoželjna situacija –> opažaj -> akcija –> nova poželjna situacija -> opažaj povoljne situacije Povratna sprega može da uspostavi direktnu vezu između opažaja nepovoljne situacije i odgovarajuće akcije kojom se ta situacija otklanja Metodom pokušaja i posledice može se doći do povoljnih akcija Dobijanje informacije o efektu akcija sa aspekta korisnosti - povoljnosti
Povratna sprega Vrsta povratne sprege za učenje koja je na raspolaganju je uglavnom i najvažniji faktor koji određuje prirodu problema sa kojom se agent suočava Automatsko – mašinsko učenje može biti nadgledano (supervised), nenadgledano (unsupervised) i podržano (reinforcement) Nadgledano učenje je učenje preko primera ulaza i izlaza – situacije i akcije U sredinama koje su u potpunosti dostupne posmatranju problem učenja je jednostavniji, dok su sredine koje se ne mogu u potpunosti posmatrati složenije okruženje za ovakvo učenje
Nenadgledano učenje Kod nenadgledanog učenja nema tako jasnog ukazivanja na povoljne / korisne akcije u datoj situaciji, već agent sam na neki način dolazi do takvih akcija Potpuno nenadgledano učenje ne može imati nikakvih rezultata, jer ne postoji nikakvo određenje šta je korisno / povoljno u datoj situaciji
Podržano učenje Podržano učenje je najoštiji vid učenja kada se povoljno / efikasno ponašanje stimuliše na neki način, dok se nepovoljno ponašanje na neki način sprečava / destimuliše Reprezentacija / predstavljanje naučenog je takođe bitna - moguće je koristiti bilo koji od pomenutih predstavljanja – iskazni račun, predikatski račun, račun verovatnoće ili neki drugi način predstavljanja.
Učenje i prethodno znanje Prethodno znanje je u realnosti kod živih organizama - sistema uvek prisutno, i veoma je bitno Kod veštačkih sistema se jednostavnosti radi polazi od sistema / agenata bez prethodnog znanja, što u realnosti skoro nikada nije slučaj Neko znanje uvek postoji, čak se pretpostavlja tzv. urođeno znanje u vidu refleksa na pr.
Induktivno učenje Algoritam za determinističko nadgledano učenje je dat kao niz tačaka (x, f(x)) sa tačnim vrednostima za koje je potrebno naći funkciju h koja najbolje opisuje takav niz tačaka Fja h se naziva hipoteza Problem kod ovakvog učenja je kriterijum na osnovu koga se može tvrditi da je odabrana hipoteza odgovarajuća Dobra hipoteza će tačno predvideti vrednosti za nove vrednosti x-eva To je osnovni problem indukcije koji se proučava vekovima
Može postojati više različitih hipoteza koje su konzistentne sa postojećim podacima. Kako odabrati najbolju ili jedinu ispravnu? To je problem za koji postoje različita rešenja. Ako nema novih podataka, jedna od heuristika je da se bita najjednostavnija hipoteza – najjednostavnija funkcija za fitovanje. Ako se mogu dobiti novi podaci, onda se hipoteze testiraju sa novim podacima – eksperimenti u CERN-u sa ciljem dokaza hipoteza / teorija. Fitovanje funkcije
Induktivno učenje • Prostor hipoteza je prostor u kome se traže moguće hipoteze • Ako se u prostoru hipoteza može naći odgovarajuća hipoteza, onda se kaže da je prostor hipoteza realizable, u suprotnom da je unrealizable • Podaci na prethodnoj slici pod c se mogu tačno aproksimirati linearnom funkcijom, ax + b + csinx koja se ne nalazi u prostoru polinoma. Ako se hipoteza traži samo u prostoru polinoma, nema tačne hipoteze. • Zato je veoma važan dobar izbor odgovarajućeg prostora gde se traži hipoteza • Unapred je teško reći koji je prostor za hipotezu odgovarajući, jer se rešenje ne zna unapred. • Nalaženje rešenja je učenje
Induktivno učenje • Drugačiji pristup je da se krene od najšireg mogućeg prostora hipoteza – od klase H svih Turing-ovih mašina, jer se svaka izračunljiva f-ja može predstaviti nekom Turing-ovom mašinom. Da li je to najbolji pristup? • Problem je u nalaženju najjednostavnijeg rešenja – hipoteze kojom se problem može predstaviti – opisati. • Nalaženje odgovarajuće Turing-ove mašine može da bude težak zadatak, za potencijalno sasvim jednostavno rešenje – fitovanje linearnom fjom. • Dakle, problem je kompromis nalaženja odgovarajućeg rešenja – hipoteze, koje je i maksimalno jednostavno – nalaženje rešenja koje je odgovarajuće ali nije najjednostavnije, jednostavno rešenje se lako računa
Algoritam za učenje: drvo odlučivanja • Drvo odlučivanja je jedan od najjednostavnijih i najuspešnijih algoritama za induktivno učenje. • Drvo odlučivanja uzima kao ulaz objekat ili situaciju opisanu sa skupom atributa i kao rezultat vraća odluku – predviđeni rezultat za dati ulaz • Podaci – ulazni i izlazni mogu biti kontinualni (regresija) i diskretni (klasifikacija), specijalan slučaj diskretnih podataka su logički podaci – klasifikacija tačno / netačno • Proces odlučivanja se sastoji od niza testova koji odgovaraju čvorovima stabla od kojih vode grane koje predstavljaju moguće rezultate tog testa • Krajnji rezultat odlučivanja su krajnji čvorovi koji nemaju naslednike – listovi stabla odlučivanja
Primer za stablo odlučivanja cilj je čekati (WillWait) DA ili NE atributi kojima se opisuje problem
Izražajnost stabla odlučivanja • Bilo koja odluka stabla odlučivanja za WillWait cilj se može predstaviti gornjim iskazom koji je disjunkcija uslova Pi(s), od kojih je svaki Pi(s) konjukcija uslova od korena do nekog lista sa pozitivnim ishodom • Stablo odlučivanja je ekvivalentno sa nekom logičkom fjom – bilo koja logička fja se može zapisati u formi stabla odlučivanja • Svaki red u tablici istinitosti logičke fje odgovara jednoj putanji stabla odlučivanja – pošto više različitih putanja mogu da imaju zajedničke grane, stabla odlučivanja mogu da budu jednostavnija i preglednija u odnosu na tabele istinitosti koje imaju eksponencijalnu složenost 2n
Izražajnost stabla odlučivanja • Za funkcije tipa parnosti (parity function) – daju 1 (true) samo kada je paran broj ulaza 1, kao i za fju koja daje 1 kada je više od pola ulaza na 1 (majority function), kod kojih je potrebno posebno predstaviti različite moguće putanje – kombinacije ulaza, stablo odlučivanja nije pogodno jer ima veliku složenost. • Ako logička fja ima n ulaza, onda odgovarajuća tablica istinitosti ima 2n redova. Kolonu sa rezultatima logičke fje možemo posmatrati kao binarni broj koji ima 2n bitova – svakoj logičkoj fj-i sa n ulaza odgovara jedan broj sa 2n bitova. Koliko ima različitih logičkih fja? 2^(2^n) • Za n=6 to je 2^(2^6) = 2 (64) =
Inducing – kreiranje stabla odlučivanja na osnovu primera - examples
Inducing – kreiranje stabla odlučivanja na osnovu primera - examples • Svaki primer – red u tabeli, odgovara jednoj putanji stabla odlučivanja • Ovakvo stablo samo memoriše opažene slučajeve i ne može da se koristi za nove slučajeve – nove kombinacije atributa • Kako odrediti redosled ispitivanja atributa, pošto stablo odlučivanja to zahteva? • Moguća heuristika za redosled ispitivanja uslova je da se prvo ispituju najbitniji atributi koji najviše utiču na klasifikaciju
Određivanje redosleda ispitivanja uslova za stablo odlučivanja
Određivanje redosleda ispitivanja uslova za stablo odlučivanja • Pošto se odredi najznačajniji atribut, svaki rezultat ispitivanja tog atributa – grana, daje novo podstablo odlučivanja sa jednim parametrom manje i sa manje primera • Svođenje postupka kreiranja stabla na podstabla koja se dobijaju grananjem, je rekurzivan postupak sa sledećim mogućnostima: • Ako postoji podgrana sa pozitivnim i negativnim primerima, treba odabrati sledeći atribut koji će najbolje da podeli primere u toj podgrani • Ako su svi primeri isti – pozitivni ili negativni, onda je to kraj podgrane
Određivanje redosleda ispitivanja uslova za stablo odlučivanja • Ako za neku podgranu odabranog atributa nema više primera, to znači da se radi o sasvim novom slučaju koji nije do sada opažen i u tom slučaju treba vratiti podrazumevanu vrednost • Ako u podgrani ima i pozitivnih i negativnih primera a nema više atributa, onda postoji problem jer više primera imaju isti opis a različitu klasifikaciju. To se može desiti usled netačnih podataka – šum, ako atributi ne daju potpunu klasifikaciju stanja ili ako je problem suštinski nedeterministički. U tom slučaju se vraća vrednost većinskog rezultata do tada
Implementacija algoritma za stablo odlučivanja – redosled atributa • Fja u algoritmu Choose-Attribute bira atribute na osnovu količine informacije koju nosi. Količina informacije zavisi od prethodnog znanja. Maksimalna informacija se dobija ako uopšte nema prethodnog znanja. • Shannon-ova (1949) teorija informacija daje sledeći izraz za količinu informacija u bit-ovima Količina informacija I kada su vi mogući odgovori, a P(vi) odgovarajuće verovatnoće. Informacija od 1 bita daje odgovor da / ne. Primer sa bacanjem novčića
Određivanje redosleda atributa na osnovu količine informacija • Procena verovatnoće pojedinačnih odgovora koje daje stablo odlučivanja na osnovu broja + i – odgovora bez analize primera je Pošto je p = n = 6 rezultat je 1 bit informacije koju daje stablo odlučivanja. Ideja je da se prvo uzme atribut koji daje najveći informacioni sadržaj. Bilo koji atribut A deli skup primera u grupe E1, ... Ev sa v različitih vrednosti Ako se ide nekom granom i koja ima pi i ni informacioni sadržaj je sa verovatnoćom Posle testiranja promenljive A biće potrebno još pa se informacioni sadržaj od A računa kao
Ocenjivanje algoritma za učenje • Algoritam za učenje se ocenjuje na osnovu toga kako vrši klasifikaciju novih primera sa kojima nije obučavan. • Testiranje se vrši na velikom skupu podataka koji se deli na dva skupa, jedan za obučavanje – generisanje hipoteze, a drugi za testiranje. • Obučavanje se vrši sa različitim veličinama skupova primera i nakon toga se meri procenat tačnih odgovora – klasifikacija sa novim test primerima • Ako se različite hipoteze testiraju na istom skupu test primera, onda se odabiranjem najbolje hipoteze u stvari bira algoritam najbolje prilagođen test primeru, i tako cure informacije iz test primera u algoritam za učenje • Odabrani algoritam bi trebalo testirati dodatno na novom skupu test primera, što se u praksi retko radi
Kriva učenja za stablo odlučivanjaOblik krive učenja pokazuje da postoji šablon u podacima za obučavanje koji algoritam postepeno uči
Noise – šum i overfitting - preodređenost • Kada se dva ili više primera sa istim opisom različito klasifikuju, onda se to pripisuje pogrešnim podacima i može se vratiti podrazumevani ili neki drugi odgovor u takvom slučaju. • Ali, može se desiti i to, da se pronađe nova putanja klasifikacije koja će biti saglasna sa svim ostalim primerima, tako što će se upotrebiti irelevantni atributi da se napravi lažna razlika pomoću nebitnog atributa između primera sa istim opisom i različitom klasifikacijom. • Primer za nebitne atribute je kada bi kod primera bacanja kocke uveli atribute kao što su dan bacanja, mesec bacanja i boja kocke. • Takvi atributi bi doveli do potpuno lažne klasifikacije rezultata bacanja kocke jer su potpuno nebitni
Šum i preodređenost • Sve dok dva primera nemaju isti opis, biće na odgovarajući način klasifikovani, ali pošto se koriste nebitni atributi, klasifikacija će biti besmislena • Što se više nebitnih atributa uvodi, utoliko je izglednija nemoguća hipoteza • Takav efekat se naziva preodređenost, tj. lažna hipoteza koja nalazi smisao tamo gde ga objektivno nema i može da nastane kod svih oblika učenja. • Da bi se to sprečilo, treba otkriti nebitne atribute. • Jedan od načina otkrivanja nebitnih atributa je test statistički značajnog rezultata. • Početna pretpostavka – nulta hipoteza je da je atribut statistički nebitan – irelevantan
Otkrivanje šuma i preodređenosti • Ako je atribut statistički nebitan, onda klasifikacija na osnovu takvog atributa nema skoro nikakav informacioni doprinos – raspodela rezultata klasifikacije u svim granama čvora koji odgovara nebitnom atributu je slična. • Ali, informacioni doprinos može da postoji i da bude veoma mali, postavlja se pitanje koliko mali statistički doprinos treba da bude da se atribut smatra irelevantnim? • Računa se standardna devijacija odstupanja od srednje vrednosti koja treba da bude statistički značajna
Otkrivanje šuma i preodređenosti • Primer nulte hipoteze: • Optuženi se smatra nevinim – nulta hipoteza, dok se ne dokaže suprotno Analogno tome, smatra se da je atribut statistički irelevantan, osim ako se statističkim testovima - χ2 test na pr., ne pokaže da jeste relevantan Eliminisanje irelevantnih atributa redukuje stablo odlučivanja – pruning, koje samim tim postaje jasnije
Ensemble learning – učenje sa grupom hipoteza • Jedno stablo odlučivanja odgovara jednoj hipotezi • Više različitih stabala sa različitim hipotezama koje određuju, predstavlja mogućnost za efikasnije učenje • Različite hipoteze – stabla odlučivanja, mogu se generisati od istog skupa primera za obučavanje - training set • Verovatnoća pogrešne klasifikacije grupe hipoteza je mnogo manja od verovatnoće da samo jedna hipoteza pogrešno klasifikuje neki primer, na pr. tek ako više od pola hipoteza iz skupa – grupe pogrešno klasifikuju neki primer, može se govoriti zaista o pogrešnoj klasifikaciji • Prostor koji odgovara grupi hipoteza se dobija kombinovanjem prostora pojedinih u grupi
Učenje sa grupom hipoteza • Na koji način se mogu dobiti nove, različite hipoteze od istog skupa primera za obučavanje – learning set? • Promenom algritma za obučavanje, različitim rasporedom ispitivanja uslova – vrednosti atributa koje karakterišu primere, različitim atributima u različitim hipotezama, itd. • Jedan od najčešće korišćenih metoda za efikasnije učenje sa grupom hipoteza, naziva se boosting. • Boosting se koristi sa skupom primera za obučavanje – training set, kada su primeri u skupu označeni sa različitim težinskim faktorima witako da veća težina primera označava da je primer važniji za proces obučavanja • Boosting počinje sa svim istim težinama za obučavanje
Boosting algoritam • Na osnovu test primera sa svim istim težinama wi generiše se prva hipoteza h1 algoritmom za učenje • Hipoteza h1 neke test primere klasifikuje tačno, a neke netačno • Težine tačno klasifikovanih primera se smanjuju, dok se težine pogrešno klasifikovanih primera povećavaju, jer su ti primeri kao pogrešno klasifikovani od strane prethodne hipoteze h1, bitniji za generisanje sledeće hipoteze h2 na osnovu rezultata klasifikacije prethodne hipoteze h1 • Na osnovu rezultata klasifikacije sledeće hipoteze h2 se ponovo na isti način podešavaju težine test primera za sledeću hipotezu h3. • Postupak se ponavlja do M – hM, gde je M ulaz u Boost al
Boosting algoritam • Krajnji rezultat je M hipoteza koje su označene težinskim faktorima prema rezultatima klasifikacije primera za obučavanje – learning set • Jedna od varijanti Boosting algoritma je ADAptive Boost • Važna karakteristika AdaBoost learning algoritma je ponašanje kada je osnovni algoritam učenja “slab” – weak • Slab algoritam učenja L znači da L daje – generiše hipoteze koje su tek “nešto” bolje – efikasnije od slučajnog pogađanja sa verovatnoćom od 50%, dakle imaju nešto iznad 50% efikasnost klasifikacije • AdaBoost ne menjajući algoritam učenja, vraća hipotezu koja bez greške klasifikuje skup primera za obučavanje za dovoljno veliko zadato M.
Karakteristike boosting algoritma • Ansambl – skup hipoteza ima bolje karakteristike klasifikacije tokom učenja za bilo koji skup primera u odnosu na samo jednu hipotezu • Skup hipoteza dostiže potpunu tačnost klasifikacije – 100% za training set pri M=20, dok tačnost klasifikacije za test primere nastavlja da raste i posle toga – M=20. • Za M=20, tačnost klasifikacije je 0,95 i nastavlja da raste sa M sve do M=138 kada dostiže 0,98 posle čega opet pada na 0,95 • To je bilo svojevrsno iznenađenje, da i posle postizanja 100% tačnosti za training set, tačnost i dalje raste za test set, što predstavlja sasvim generalno ponašanje za različite skupove podataka i prostore hipoteza
Učenje kao fenomen: Zašto učenje funkcioniše? • Neka od osnovnih pitanja u vezi učenja su kako se može znati da li je neka hipoteza dobra, da li je ista ili približna kao neka sasvim tačna hipoteza f koja se traži, ali nije poznata? • Kako da znamo da li smo našli dovoljno dobru hipotezu, kada ne znamo kako treba da izgleda? • To su neka od pitanja u oblasti učenja koja se vekovima razmatraju • Odgovori nisu ni danas poznati, tako da će oblast mašinskog učenja nastaviti da zbunjuje samu sebe sopstvenim uspesima i dostignućima
Computational learning theory • Computational learning theory (CLT) – matematička / računska terija učenja koja se nalazi u preseku veštačke inteligencije, statistike i teorijske računarske nauke • Osnovna postavka CLT je da će neka značajno pogrešna hipoteza biti skoro sigurno nađena sa velikom verovatnoćom na malom broju primera, zbog svojih pogrešnih predviđanja – klasifikacije • Na osnovu toga, za bilo koju hipotezu koja je saglasna sa dovoljno velikim brojem primera za obučavanje, je mala verovatnoća da bude suštinski pogrešna, dakle samim tim je veoma verovatno približno tačna! • Bilo koji algoritam za učenje koji generiše hipoteze koje su verovatno približno tačne – Probably Approximatelly Correct (PAC), naziva se PAC algoritam
Karakteristike PAC algoritma • Jedno od osnovnih pitanja kod učenja je veza između skupa primera za obučavanje – training set i primera za proveru – testing set • Sa jedne strane, primeri za obučavanje treba da budu nezavisni od test primera, ali treba da pripadaju istoj populaciji primera sa ravnomernom raspoređenošću. • Primeri za obučavanje i testiranje se nasumično biraju iz jedinstvenog skupa primera što omogućava klasifikaciju nepoznatih primera na osnovu naučenih primera • Pretpostavka o uniformnoj raspodeli primera za obučavanje i test primera se naziva stationary assumption – pretpostavka o stacionarnosti primera za obučavanje i testiranje bez koje ne bi bilo veze i nezavisnosti između ova dva skupa primera koji treba da budu i nezavisni istovremeno
Koliko primera je potrebno? • X je skup svih primera • D je neka raspodela kojom se biraju primeri • H je skup svih hipoteza • N je broj primera za obučavanje • Pretpostavlja se da je prava – tražena fja f član skupa H • Definiše se greška – error kao verovatnoća da je odabrana hipoteza h različita od f • Hipoteza h je aproksimativno korektna ako je error(h)<=e, gde je e neki mali broj • H je korektna hipoteza ako leži u nekoj e okolini tačke f koja je prava fja
Learning decision lists • K-DL(n) predstavlja jezik za izražavanje lista za odlučivanje sa najviše k atributa od n • K-DT je jezik za izražavanje stabala odlučivanja najveće dubine k • K-DT je podskup od K-DL • Atribut – test u K-DL može biti izostavljen, Yes ili No