1 / 37

Ma šinsko učenje

Ma šinsko učenje. Mladen Nikolić. Šta je mašinsko učenje ?. Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem.

minda
Download Presentation

Ma šinsko učenje

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mašinsko učenje Mladen Nikolić

  2. Šta je mašinsko učenje? • Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem. • Disciplina koja se bavi proučavanjem generalizacije i konstrukcijom i analizom algoritama koji generalizuju.

  3. Podaci • Podaci na osnovu kojih se generalizuje se nezivaju podacima za trening, a njihov skup trening skup. • Podaci na kojima se vrši generalizacija najčešće se nazivaju podaci za testiranje, a njihov skup test skup. • Pojedinačne podatke nazivamo instancama. • Instance ćemo označavati promenljivom x.

  4. Primer • Naučiti kakvi dani su pogodni za bavljenje vodenim sportovima. • Podatci se,na primer, mogu pretstaviti kao konjunkcije uslova nad nekim promenljivim koje smatramo relevantnim. Na primer • Oblačnost {Vedro, Oblačno} • Temperatura vazduha {Toplo, Hladno} • Vlažnost {Normalna, Visoka} • Vetar {Jak, Slab} • Temperatura vode {Toplo, Hladno} • Prognoza {Promenljivo, Stabilno} • U ovakvom slučaju jedna intanca može da bude • (Toplo, Normalna, Slab, Toplo, Promenljivo)

  5. Dizajn sistema koji uči • Prilikom dizajna sistema koji uči bitno je učiniti sledeće izbore: • Izbor formulacije problema učenja • Definisanje ciljne funkcije • Definisanje prostora hipoteza • Izbor mere efikasnosti • Izbor algoritma koji uči

  6. Osnovne formulacije problema učenja • Nadgledano učenje • Zajedno sa trening podacima algoritmu koji uči pružaju se i željeni izlazi. • Nenadgledano učenje • Algoritmu koji uči se daju samo podaci bez izlaza.

  7. Primer

  8. Učenje kao aproksimiranje funkcija • Učenje se najčešće može videti kao vid aproksimacije funkcija. • Funkcija koju treba aproksimirati se naziva ciljna funkcija. • Funkciju kojom aproksimiramo ciljnu, nazivamo hipotezom ili modelom podataka. • Ciljnu funkciju ćemo označavati sa c. • Hipotezu ćemo označavati sa h.

  9. Prostor hipoteza • Prostor hipoteza je skup svih dopustivih hipoteza. • Izbor prostora hipoteza je presudan za kvalitet procesa učenja. • Učenje se može videti kao pretraga prostora hipoteza vođena podacima. • Prostor hipoteza ćemo označavati sa H.

  10. Primer • Ciljna funkcija, na primer, može biti zadata tabelom. • Hipoteze mogu biti vektori vrednosti promenljivih kojima opisujemo dane. • Dodaćemo dve specijalne vrednosti • ? – svaka vrednost je prihvatljiva • Ø – nijedna vrednost nije prihvatljiva • Primer hipoteze koja kaže da je hladno vreme sa visokomvlažnošću pogodno za bavljenje vodenim sportovima • <?,Hladno,Visoka,?,?,?>

  11. Mera efikasnosti • Mogući su različiti izbori. • Od tog izbora dosta zavisi šta je to što će biti naučeno.

  12. Primer • Smatraćemo da je hipoteza koja se slaže sa svim podacima za trening dobra, a hipoteza koja se ne slaže sa bilo kojom instancom iz trening skupa, loša.

  13. Algoritam učenja • Postoji veliki broj algoritama učenja. • Razlikuju se po domenima na koje su primenljivi, performansama, načinu pružanja podataka i slično.

  14. Primer • Koristićemo algoritam koji nalazi najspecifičniju hipotezu koja odgovara podacima. • Find-S: • Inicijalizovati hna < Ø, Ø, Ø, Ø, Ø, Ø> • Za svaku pozitivnu instancu iz trening skupa • Za svaku promenljivu Ai u h • Ako uslov za Ai nije zadovoljen, zamenitipostojeću vrednost sledećom opštijom vrednošću tako da x zadovoljava h. • Vratiti h.

  15. Primer

  16. Neki problemi učenja • Klasifikacija • Regresija • Odlučivanje • Učenje jezika

  17. Primer • Problem određivanja da li je dan pogodan za vodene sportove je problem klasifikacije. Postoje dve klase • 1 – Dan je pogodan • 2 – Dan nije pogodan

  18. Teorijski modeli učenja • Algoritmi su dugo privlačili više pažnje od teorijskih modela. • Teorijski modeli pokušavaju da odgovore pre svega na sledeća pitanja: • Šta se može naučiti, koliko dobro i pod kojim uslovima? • Kako se menja kvalitet učenja u zavisnosti od obima trening podataka?

  19. Neki poznatiji modeli učenja • Glodov model “graničnog učenja” (1964) • Valiantov PAC model (1984) • Statistička teorija učenja (Vapnik i drugi od šezdesetih do kraja devedesetih)

  20. PAC model • PAC – Probably approximately correct. • Aproksimativnost podrazumeva definisanje greške. • Greška hipoteze h u odnosu na ciljnu funkciju c i raspodelu D je verovatnoća da će h dodeliti pogrešnu vrednost instanci xizabranoj prema raspodeli D. • E(h|D)=P(c(x)≠h(x))

  21. PAC model • C – skup ciljnih funkcija • X – skup instanci kardinalnosti n • L – algoritam koji uči • Kažemo da je skup C PAC naučiv (PAC learnable) koristeći algoritam L i prostor hipoteza H ako za sve • funkcije c iz skupa C, • raspodele D nad X, • 0<ε<½, • 0< δ <½, L sa verovatnoćom bar 1-δ vraća hipotezu h iz H takvu da je E(h|D)≤ε u vremenu koje je polinomijalno u odnosu na 1/ε, 1/δ, n i složenost funkcije c. • Složenost funkcije c je dužina njenog kodiranja u skupu C uzevši u obzir neku reprezentaciju.

  22. PAC model • Očigledno se zahteva da prostor hipoteza H sadrži hipotezu sa proizvoljno malom greškom za svaku ciljnu funkciju. • To nije uvek moguće obezbediti. • U tom slučaju od algoritma možemo zahtevati da nađe hipotezu sa najmanjom greškom.

  23. Obim podataka za trening • Podaci za trening često nisu lako dostupni. • Stoga je zahtevnost za takvim podacima vrlo bitna. • Pokazuje se da je za PAC učenje dovoljan broj instanci m dat sa: • m≥(ln|H|+ln(1/δ))/2ε() • Obično je dovoljno i mnogo manje instanci. • Ova ocena je neprimenljiva u slučaju beskonačnog prostora hipoteza.

  24. Primer • S obzirom na moguće vrednosti koje možemo dodeliti promenljivim veličina prostora hipoteza je 4n gde je n broj promenljivih koje smatramo bitnim. Stoga je • m≥(n*ln4+ln(1/δ))/2ε • Ova ocena je polinomijalna u zavisnosti od n, 1/δ, 1/ε i nezavisna od složenosti ciljne funkcije.

  25. Primer • Vremenska složenost algoritma Find-S je linearna u odnosu na obim podataka za trening, a nezavisna od 1/δ, 1/ε i složenosti ciljne funkcije. • Stoga je skup ciljnih funkcija u našem problemu PAC naučiv koristeći algoritam Find-S i odabrani prostor hipoteza.

  26. Složenost prostora funkcija • U formuli za veličinu uzorka složenost prostora funkcija se ogledala preko njegove kardinalnosti. • Druga mera bi mogla biti njegova dimenzionalnost. • Postoji bolja mera složenosti od obe pomenute koja potiče iz statističke teorije učenja.

  27. VC dimenzija • VC – Vapnik-Červonenkis • X – skup svih mogućih instanci. • S – skup instanci koje posmatramo. • Neka su hipoteze diskretne funkcije koje uzimaju vrednosti iz skupa {0,1}. • Moguća su uopštenja na proizvoljne funkcije. • Svaka hipoteza indukuje jednu dihotomiju skupa S: • {x iz S | h(x)=1} • {x iz S | h(x)=0}

  28. VC dimenzija • Skup hipoteza H razbija skup instanci S ako i samo ako za svaku dihotomiju skupa S postoji neka hipoteza iz H koja je indukuje. • VC dimenzija skupa hipoteza H definisanih nad skupom instanci X je veličina najvećeg konačnog podskupa od X koga H razbija. • Ako se proizvoljno veliki podskupovi od X mogu razbiti pomoću H, onda je VC dimenzija skupa H beskonačna.

  29. Primer • X=R • H={A<x<B | A,B iz R} • VC(H)=2 • X=R • H={Ax+By+C>0 | A,B,C iz R} • VC(H)=3

  30. Primer • H={x iz S | S iz P(X)} • VC(H)=∞

  31. Overfitting • Visoka VC dimenzija skupa hipoteza znači veliku prilagodljivost hipoteza podacima. • Ukoliko je VC(H) mala, nemamo dovoljno bogat skup hipoteza i pravi se značajna greška već na trening skupu.

  32. Overfitting • Ukoliko je VC(H) velika, skup je bogat i vrlo lako se nalazi hipoteza koja se dobro slaže sa podacima za trening. • Hipoteza koja je previše prilagođena podacima za trening često ne generalizuje dobro, odnosno pravi veliku grešku na podacima koji su nepoznati u vreme treninga. Mogući razlozi • Hipoteza je prilagođena šumu u podacima • Hipoteza je prilagođena uzorku koji ne oslikava dovoljno dobro stvarnu distribuciju podatka (sampling bias) • Ovaj problem je poznat pod nazivom overfitting.

  33. Pristrasnost u indukciji • Da VC dimenzija prostora hipoteza ne bi bila prevelika potrebno je napraviti neke dodatne pretpostavke o prostoru hipoteza. • Algoritam koji uči može napraviti dodatne pretpostavke. • Ove pretpostavke dovode do takozvane pristrasnosti u indukciji (inductibe bias).

  34. Primer • Prilikom opisivanja dana koji su pogodni za bavljenje vodenim sportovima pretpostavljali smo da se dani mogu opisati konjunkcijama uslova nad određenim promenljivim. • Algoritam Find-S pretpostavlja da je najspecifičnija hipoteza najbolja. • Da smo dozvolili • proizvoljne kombinacije konjunkcija, disjunkcija i negacija i • da sve hipoteze koje su konzistentne sa podacima za trening glasaju o vrednosti ciljne funkcije potpuno bismo izgubili moć generalizacije.

  35. VC dimenzija • Koristeći VC dimenziju moguće je izvesti značajno bolje granice za broj primera za trening, koja je pri tom upotrebljiva i u slučaju beskonačnih prostora hipoteza.

  36. Generalizacija • Koristeći VC dimenziju moguće je i izvesti gornju granicu mogućnosti generalizacije koristeći neki prostor hipoteza. • R(h) – Stvarni rizik, odnosno očekivanje greške generalizacije • Remp (h)–Empirijski rizik, odnosno greška na trening skpu • E – Širina intervala poverenja kada se statistika Rempuzme za ocenu vrednosti R. • β – zahtevano poverenje. • Gornja granica greške generalizacije može da se zapiše kao • R<Remp+E(VC(H),β;n) • Princip strukturalne minimizacije rizika kaže da hipotezu treba birati iz prostora hipoteza što manje VC dimenzije, a da se pri tom ne napravi prevelika greška na trening skupu.

  37. Strukturalna minimizacija rizika

More Related