460 likes | 850 Views
Ma šinsko učenje. Mladen Nikolić. Šta je mašinsko učenje ?. Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem.
E N D
Mašinsko učenje Mladen Nikolić
Šta je mašinsko učenje? • Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem. • Disciplina koja se bavi proučavanjem generalizacije i konstrukcijom i analizom algoritama koji generalizuju.
Podaci • Podaci na osnovu kojih se generalizuje se nezivaju podacima za trening, a njihov skup trening skup. • Podaci na kojima se vrši generalizacija najčešće se nazivaju podaci za testiranje, a njihov skup test skup. • Pojedinačne podatke nazivamo instancama. • Instance ćemo označavati promenljivom x.
Primer • Naučiti kakvi dani su pogodni za bavljenje vodenim sportovima. • Podatci se,na primer, mogu pretstaviti kao konjunkcije uslova nad nekim promenljivim koje smatramo relevantnim. Na primer • Oblačnost {Vedro, Oblačno} • Temperatura vazduha {Toplo, Hladno} • Vlažnost {Normalna, Visoka} • Vetar {Jak, Slab} • Temperatura vode {Toplo, Hladno} • Prognoza {Promenljivo, Stabilno} • U ovakvom slučaju jedna intanca može da bude • (Toplo, Normalna, Slab, Toplo, Promenljivo)
Dizajn sistema koji uči • Prilikom dizajna sistema koji uči bitno je učiniti sledeće izbore: • Izbor formulacije problema učenja • Definisanje ciljne funkcije • Definisanje prostora hipoteza • Izbor mere efikasnosti • Izbor algoritma koji uči
Osnovne formulacije problema učenja • Nadgledano učenje • Zajedno sa trening podacima algoritmu koji uči pružaju se i željeni izlazi. • Nenadgledano učenje • Algoritmu koji uči se daju samo podaci bez izlaza.
Učenje kao aproksimiranje funkcija • Učenje se najčešće može videti kao vid aproksimacije funkcija. • Funkcija koju treba aproksimirati se naziva ciljna funkcija. • Funkciju kojom aproksimiramo ciljnu, nazivamo hipotezom ili modelom podataka. • Ciljnu funkciju ćemo označavati sa c. • Hipotezu ćemo označavati sa h.
Prostor hipoteza • Prostor hipoteza je skup svih dopustivih hipoteza. • Izbor prostora hipoteza je presudan za kvalitet procesa učenja. • Učenje se može videti kao pretraga prostora hipoteza vođena podacima. • Prostor hipoteza ćemo označavati sa H.
Primer • Ciljna funkcija, na primer, može biti zadata tabelom. • Hipoteze mogu biti vektori vrednosti promenljivih kojima opisujemo dane. • Dodaćemo dve specijalne vrednosti • ? – svaka vrednost je prihvatljiva • Ø – nijedna vrednost nije prihvatljiva • Primer hipoteze koja kaže da je hladno vreme sa visokomvlažnošću pogodno za bavljenje vodenim sportovima • <?,Hladno,Visoka,?,?,?>
Mera efikasnosti • Mogući su različiti izbori. • Od tog izbora dosta zavisi šta je to što će biti naučeno.
Primer • Smatraćemo da je hipoteza koja se slaže sa svim podacima za trening dobra, a hipoteza koja se ne slaže sa bilo kojom instancom iz trening skupa, loša.
Algoritam učenja • Postoji veliki broj algoritama učenja. • Razlikuju se po domenima na koje su primenljivi, performansama, načinu pružanja podataka i slično.
Primer • Koristićemo algoritam koji nalazi najspecifičniju hipotezu koja odgovara podacima. • Find-S: • Inicijalizovati hna < Ø, Ø, Ø, Ø, Ø, Ø> • Za svaku pozitivnu instancu iz trening skupa • Za svaku promenljivu Ai u h • Ako uslov za Ai nije zadovoljen, zamenitipostojeću vrednost sledećom opštijom vrednošću tako da x zadovoljava h. • Vratiti h.
Neki problemi učenja • Klasifikacija • Regresija • Odlučivanje • Učenje jezika
Primer • Problem određivanja da li je dan pogodan za vodene sportove je problem klasifikacije. Postoje dve klase • 1 – Dan je pogodan • 2 – Dan nije pogodan
Teorijski modeli učenja • Algoritmi su dugo privlačili više pažnje od teorijskih modela. • Teorijski modeli pokušavaju da odgovore pre svega na sledeća pitanja: • Šta se može naučiti, koliko dobro i pod kojim uslovima? • Kako se menja kvalitet učenja u zavisnosti od obima trening podataka?
Neki poznatiji modeli učenja • Glodov model “graničnog učenja” (1964) • Valiantov PAC model (1984) • Statistička teorija učenja (Vapnik i drugi od šezdesetih do kraja devedesetih)
PAC model • PAC – Probably approximately correct. • Aproksimativnost podrazumeva definisanje greške. • Greška hipoteze h u odnosu na ciljnu funkciju c i raspodelu D je verovatnoća da će h dodeliti pogrešnu vrednost instanci xizabranoj prema raspodeli D. • E(h|D)=P(c(x)≠h(x))
PAC model • C – skup ciljnih funkcija • X – skup instanci kardinalnosti n • L – algoritam koji uči • Kažemo da je skup C PAC naučiv (PAC learnable) koristeći algoritam L i prostor hipoteza H ako za sve • funkcije c iz skupa C, • raspodele D nad X, • 0<ε<½, • 0< δ <½, L sa verovatnoćom bar 1-δ vraća hipotezu h iz H takvu da je E(h|D)≤ε u vremenu koje je polinomijalno u odnosu na 1/ε, 1/δ, n i složenost funkcije c. • Složenost funkcije c je dužina njenog kodiranja u skupu C uzevši u obzir neku reprezentaciju.
PAC model • Očigledno se zahteva da prostor hipoteza H sadrži hipotezu sa proizvoljno malom greškom za svaku ciljnu funkciju. • To nije uvek moguće obezbediti. • U tom slučaju od algoritma možemo zahtevati da nađe hipotezu sa najmanjom greškom.
Obim podataka za trening • Podaci za trening često nisu lako dostupni. • Stoga je zahtevnost za takvim podacima vrlo bitna. • Pokazuje se da je za PAC učenje dovoljan broj instanci m dat sa: • m≥(ln|H|+ln(1/δ))/2ε() • Obično je dovoljno i mnogo manje instanci. • Ova ocena je neprimenljiva u slučaju beskonačnog prostora hipoteza.
Primer • S obzirom na moguće vrednosti koje možemo dodeliti promenljivim veličina prostora hipoteza je 4n gde je n broj promenljivih koje smatramo bitnim. Stoga je • m≥(n*ln4+ln(1/δ))/2ε • Ova ocena je polinomijalna u zavisnosti od n, 1/δ, 1/ε i nezavisna od složenosti ciljne funkcije.
Primer • Vremenska složenost algoritma Find-S je linearna u odnosu na obim podataka za trening, a nezavisna od 1/δ, 1/ε i složenosti ciljne funkcije. • Stoga je skup ciljnih funkcija u našem problemu PAC naučiv koristeći algoritam Find-S i odabrani prostor hipoteza.
Složenost prostora funkcija • U formuli za veličinu uzorka složenost prostora funkcija se ogledala preko njegove kardinalnosti. • Druga mera bi mogla biti njegova dimenzionalnost. • Postoji bolja mera složenosti od obe pomenute koja potiče iz statističke teorije učenja.
VC dimenzija • VC – Vapnik-Červonenkis • X – skup svih mogućih instanci. • S – skup instanci koje posmatramo. • Neka su hipoteze diskretne funkcije koje uzimaju vrednosti iz skupa {0,1}. • Moguća su uopštenja na proizvoljne funkcije. • Svaka hipoteza indukuje jednu dihotomiju skupa S: • {x iz S | h(x)=1} • {x iz S | h(x)=0}
VC dimenzija • Skup hipoteza H razbija skup instanci S ako i samo ako za svaku dihotomiju skupa S postoji neka hipoteza iz H koja je indukuje. • VC dimenzija skupa hipoteza H definisanih nad skupom instanci X je veličina najvećeg konačnog podskupa od X koga H razbija. • Ako se proizvoljno veliki podskupovi od X mogu razbiti pomoću H, onda je VC dimenzija skupa H beskonačna.
Primer • X=R • H={A<x<B | A,B iz R} • VC(H)=2 • X=R • H={Ax+By+C>0 | A,B,C iz R} • VC(H)=3
Primer • H={x iz S | S iz P(X)} • VC(H)=∞
Overfitting • Visoka VC dimenzija skupa hipoteza znači veliku prilagodljivost hipoteza podacima. • Ukoliko je VC(H) mala, nemamo dovoljno bogat skup hipoteza i pravi se značajna greška već na trening skupu.
Overfitting • Ukoliko je VC(H) velika, skup je bogat i vrlo lako se nalazi hipoteza koja se dobro slaže sa podacima za trening. • Hipoteza koja je previše prilagođena podacima za trening često ne generalizuje dobro, odnosno pravi veliku grešku na podacima koji su nepoznati u vreme treninga. Mogući razlozi • Hipoteza je prilagođena šumu u podacima • Hipoteza je prilagođena uzorku koji ne oslikava dovoljno dobro stvarnu distribuciju podatka (sampling bias) • Ovaj problem je poznat pod nazivom overfitting.
Pristrasnost u indukciji • Da VC dimenzija prostora hipoteza ne bi bila prevelika potrebno je napraviti neke dodatne pretpostavke o prostoru hipoteza. • Algoritam koji uči može napraviti dodatne pretpostavke. • Ove pretpostavke dovode do takozvane pristrasnosti u indukciji (inductibe bias).
Primer • Prilikom opisivanja dana koji su pogodni za bavljenje vodenim sportovima pretpostavljali smo da se dani mogu opisati konjunkcijama uslova nad određenim promenljivim. • Algoritam Find-S pretpostavlja da je najspecifičnija hipoteza najbolja. • Da smo dozvolili • proizvoljne kombinacije konjunkcija, disjunkcija i negacija i • da sve hipoteze koje su konzistentne sa podacima za trening glasaju o vrednosti ciljne funkcije potpuno bismo izgubili moć generalizacije.
VC dimenzija • Koristeći VC dimenziju moguće je izvesti značajno bolje granice za broj primera za trening, koja je pri tom upotrebljiva i u slučaju beskonačnih prostora hipoteza.
Generalizacija • Koristeći VC dimenziju moguće je i izvesti gornju granicu mogućnosti generalizacije koristeći neki prostor hipoteza. • R(h) – Stvarni rizik, odnosno očekivanje greške generalizacije • Remp (h)–Empirijski rizik, odnosno greška na trening skpu • E – Širina intervala poverenja kada se statistika Rempuzme za ocenu vrednosti R. • β – zahtevano poverenje. • Gornja granica greške generalizacije može da se zapiše kao • R<Remp+E(VC(H),β;n) • Princip strukturalne minimizacije rizika kaže da hipotezu treba birati iz prostora hipoteza što manje VC dimenzije, a da se pri tom ne napravi prevelika greška na trening skupu.