1 / 20

Učenje iz podataka sa graničnom nekonzistentnošću

Učenje iz podataka sa graničnom nekonzistentnošću. Nekonzistentnost podataka U opisnom jeziku nema koncepta koji razlikuje sve pozitivne i negativne primjere Nemoguće pronaći algoritam koji će sve primjere klasificirati ispravno Greška kod algoritma eliminacije kandidata

amity-riley
Download Presentation

Učenje iz podataka sa graničnom nekonzistentnošću

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Učenje iz podataka sa graničnom nekonzistentnošću • Nekonzistentnost podataka • U opisnom jeziku nema koncepta koji razlikuje sve pozitivne i negativne primjere • Nemoguće pronaći algoritam koji će sve primjere klasificirati ispravno • Greška kod algoritma eliminacije kandidata • Uklanja se korektni ciljni koncept • Ako ima dovoljno primjera prostor inačica konvergira u prazni skup

  2. Granična nekonzistentnost • Slikovni opis granične nekonzistentnosti • Primjer: nepreciznost mjernih uređaja daje podatke koji mogu biti granično nekonzistentni • Cilj: proširiti algoritam tako da bude otporan na podatke koji nisu konzistentni na granici

  3. Pristup • Ideja: • Reći da svi primjeri koji su blizu zadanom primjeru imaju istu klasifikaciju • Algoritam • Zadano: • Primjeri za treniranje • Definicija bliskosti • Konceptno opisni jezik • Odrediti: • Skup koncepata konzistentnih sa podacima ili bliskim susjednim podacima

  4. Pristup • Algoritam napreduje na sljedeći način • 1. a) Odrediti skup primjera blizu zadanog primjera b) Oblikovati prostor inačica sa svim konceptima konzistentnim sa nekim primjerima iz ovog skupa • 2. Naći presjek ovog prostora inačica sa prostorom inačica generiranom u prošlom primjeru • 3. Vratiti se na prvi korak za sljedeći primjer

  5. Pretraživanje prostora inačica • Idealni rezultat: • jedinstveni prostor inačica sa određenim konceptom • ako nema dovoljno testnih primjera konačni prostor inačica ima više od jednog koncepta • ovisnost o definiciji bliskosti • Dugi proces • moguće da nema na računalu dovoljno resursa

  6. 1. PRIMJER • Fischerovi podaci o irisima • nekonzistentni podaci • klasificiranje u 3 klase (setosa, versicolor i viginica) • 50 primjera za svaku klasu • svaki primjer opisan sa 4 obilježja (širina i duljina lapa čaške, širina i duljina latice) • Konceptno opisni jezik • Konjukcija poluzatvorenih intervala ax<b za svako obilježje, gdje su a i b višekratnici od 8 mm

  7. 1. PRIMJER • definirana duljina koja obuhvaća susjedne primjere je 3 mm (ovisno kolika je pogreška rađena tijekom mjerenja) • inicijaliziran je prostor inačica za svaku klasu • karakteristike ovakvog opisnog konceptnog jezika • svaki primjer može biti susjed konačnom broju primjera • mnogi primjeri su jednaki jer su im vrijednosti u istom intervalu • svaki prostor inačica zadani primjer u procesu učenja uzima kao negativni ili pozitivni

  8. 1. PRIMJER • Rezultati • Primjeri su podijeljeni u 10 skupova po 15 primjera, 5 primjera za svaki cvijet • 9 skupova se koristilo za učenje, a 10. skup korišten je za testiranje • Tipični konačni rezultat nakon učenja • setosa: [dužina latice<2.4cm] • versicolor: [dužina latice>=4cm] i [širina latice<1.6cm] • viginica: [dužina latice>=2.4cm] i [širina latice>=1.6cm]

  9. 1. PRIMJER • Testiranje i usporedba sa drugim metodama • Setosa je prepoznata jer je klasifikacijski odvojiva

  10. 2. PRIMJER • Tri obilježja sa realnim vrijednostima iz intervala [0,9] • Konceptno opisni jezik dijeli obilježja u tri intervala [0,3>,[3,6> i [6,9] • Konjukcija atributa • Generirano 80 slučajnih trojki brojeva iz tog intervala i svakom je zbrojena vrijednost slučajno odabrana iz intervala <-1,1> • Podaci imaju graničnu nekonzistentnost • neispravan primjer nikad nije dalje od jedinične vrijednosti • Oblikovana je definicija bliskosti koja kaže da je susjed maksimalno udaljen za jediničnu vrijednost

  11. 2. PRIMJER • Rezultati testiranja:

  12. 2. PRIMJER • Ovaj primjer pokazuje da je ovaj algoritam ispravan kada se radi sa podacima koji imaju malu pogrešku zbog mjerenja i kada znamo točno kolika je ta pogreška • Čak je dozvoljeno da svi podaci budu neispravni (ali unutar poznatih granica)

  13. RASPRAVA • ovaj algoritam jako je osjetljiv na konceptno opisni jezik i definiciju bliskosti • ako je granica susjedstva jako mala ruši se prostor inačica kao da nije ni uvedena • ako je granica susjedstva prevelika svaki primjer će imati puno susjeda i postupak postaje presložen i neizračunljiv • ako je jezik za opis koncepata previše grub primjeri neće imati susjede (npr. kod irisa je to broj decimala) • ako je jezik prefin onda primjeri imaju previše susjeda • bitno za brzinu konvergencije ka konačnom konceptu

  14. RASPRAVA • Idealna situacija: • točno se zna definicija susjedstva • dobro odabran konceptni jezik • 2. primjer je nekakva idealna situacija • Realnost: • ne zna se ni jedno ni drugo ili samo jedno • Primjer sa irisima: • u početku nije bio dobar ni konceptni jezik ni definicija bliskosti, tek su se nakon par izvođenja algoritma odredili konceptni jezik i def. bliskosti

  15. 3. PRIMJER • poboljšanje 2. primjera • svim se primjerima dodaje slučajna vrijednost iz intervala <-1,1> • mijenja se definicija bliskosti (0-3) • 3 atributa • 216 koncepata

  16. 3. PRIMJER • k obilježja, m intervala veličine w, iznos šuma d<=w, očekivani broj susjeda je • ovo pokazuje da def. bliskosti ne smije biti prefina, a ni pregruba

  17. FORMALNI REZULTATI • nedavni teorijski rad nad konceptima: kako dobiti kvalitetne rezultate s obzirom na ulazne podatke • Potrebno uvesti definicije: • Definicija 4.1 Susjed(x)={y|y je blizu x} Dobije se skup primjera koji su susjedi od x • Definicija 4.2 Za primjer x kaže se da je konzistentan sa konceptom C (piše se Konzistentan(x,C)) ako, kada je x pozitivan, p  Susjed(x) i pC, i kada je x negativan, n  Susjed(x) i nC (kada je pC to znači da ga koncept C klasificira kao pozitivnog, i nC znači da koncept C klasificira n kao negativni primjer)

  18. FORMALNI REZULTATI • Definicija 4.3 Greška(h,C)=vjerojatnost da se slučajno odabran primjer x klasificira kao pozitivni ili negativni primjer od C, tako da ne vrijedi Konzistentan(x,h) • Lema 4.1 Vjerojatnost da neki element prostora inačica generiran od m primjera iz C ima grešku veću od  je manja od |H|e-m, gdje je |H| broj izraza u konceptnom opisnom jeziku H korištenom u inkrementalnom spajanju prostora inačica.

  19. FORMALNI REZULTATI Dokaz: Pretpostavimo da neki skup hipoteza h1,...,hn u konceptnom opisnom jeziku H ima grešku veću od  s obzirom na koncept C. Ovo znači da je vjerojatnost da je primjer iz C konzistentan sa hipotezom hi manja od (1-). Vjerojatnost da je hi konzistentna sa m neovisnih primjera iz C je zbog toga manja od (1-)m. Konačno, vjerojatnost da je neka hih1,...,hk konzistentna sa m primjera je ograničena sa sumom njihovih pojedinačnih vjerojatnosti, tako da vjerojatnost da neka hi sa greškom većom od  (s obzirom na C) je konzistentna sa m primjera iz C je manja od k(1-)m. Budući da je k<=|H| i (1-)m<=e-m, vjerojatnost dobivanja neke hipoteze sa greškom većom od  konzistentne sa m neovisnih primjera iz C je manja od |H|e-m.

  20. FORMALNI REZULTATI Korolar 4.1 Vjerojatnost da svi elementi skupa inačica generirani od najmanje primjera iz skupa C imaju grešku manju od  je 1 - . Dokaz: Rješavanje  < |H|e-m po m daje traženi rezultat.

More Related