200 likes | 332 Views
Učenje iz podataka sa graničnom nekonzistentnošću. Nekonzistentnost podataka U opisnom jeziku nema koncepta koji razlikuje sve pozitivne i negativne primjere Nemoguće pronaći algoritam koji će sve primjere klasificirati ispravno Greška kod algoritma eliminacije kandidata
E N D
Učenje iz podataka sa graničnom nekonzistentnošću • Nekonzistentnost podataka • U opisnom jeziku nema koncepta koji razlikuje sve pozitivne i negativne primjere • Nemoguće pronaći algoritam koji će sve primjere klasificirati ispravno • Greška kod algoritma eliminacije kandidata • Uklanja se korektni ciljni koncept • Ako ima dovoljno primjera prostor inačica konvergira u prazni skup
Granična nekonzistentnost • Slikovni opis granične nekonzistentnosti • Primjer: nepreciznost mjernih uređaja daje podatke koji mogu biti granično nekonzistentni • Cilj: proširiti algoritam tako da bude otporan na podatke koji nisu konzistentni na granici
Pristup • Ideja: • Reći da svi primjeri koji su blizu zadanom primjeru imaju istu klasifikaciju • Algoritam • Zadano: • Primjeri za treniranje • Definicija bliskosti • Konceptno opisni jezik • Odrediti: • Skup koncepata konzistentnih sa podacima ili bliskim susjednim podacima
Pristup • Algoritam napreduje na sljedeći način • 1. a) Odrediti skup primjera blizu zadanog primjera b) Oblikovati prostor inačica sa svim konceptima konzistentnim sa nekim primjerima iz ovog skupa • 2. Naći presjek ovog prostora inačica sa prostorom inačica generiranom u prošlom primjeru • 3. Vratiti se na prvi korak za sljedeći primjer
Pretraživanje prostora inačica • Idealni rezultat: • jedinstveni prostor inačica sa određenim konceptom • ako nema dovoljno testnih primjera konačni prostor inačica ima više od jednog koncepta • ovisnost o definiciji bliskosti • Dugi proces • moguće da nema na računalu dovoljno resursa
1. PRIMJER • Fischerovi podaci o irisima • nekonzistentni podaci • klasificiranje u 3 klase (setosa, versicolor i viginica) • 50 primjera za svaku klasu • svaki primjer opisan sa 4 obilježja (širina i duljina lapa čaške, širina i duljina latice) • Konceptno opisni jezik • Konjukcija poluzatvorenih intervala ax<b za svako obilježje, gdje su a i b višekratnici od 8 mm
1. PRIMJER • definirana duljina koja obuhvaća susjedne primjere je 3 mm (ovisno kolika je pogreška rađena tijekom mjerenja) • inicijaliziran je prostor inačica za svaku klasu • karakteristike ovakvog opisnog konceptnog jezika • svaki primjer može biti susjed konačnom broju primjera • mnogi primjeri su jednaki jer su im vrijednosti u istom intervalu • svaki prostor inačica zadani primjer u procesu učenja uzima kao negativni ili pozitivni
1. PRIMJER • Rezultati • Primjeri su podijeljeni u 10 skupova po 15 primjera, 5 primjera za svaki cvijet • 9 skupova se koristilo za učenje, a 10. skup korišten je za testiranje • Tipični konačni rezultat nakon učenja • setosa: [dužina latice<2.4cm] • versicolor: [dužina latice>=4cm] i [širina latice<1.6cm] • viginica: [dužina latice>=2.4cm] i [širina latice>=1.6cm]
1. PRIMJER • Testiranje i usporedba sa drugim metodama • Setosa je prepoznata jer je klasifikacijski odvojiva
2. PRIMJER • Tri obilježja sa realnim vrijednostima iz intervala [0,9] • Konceptno opisni jezik dijeli obilježja u tri intervala [0,3>,[3,6> i [6,9] • Konjukcija atributa • Generirano 80 slučajnih trojki brojeva iz tog intervala i svakom je zbrojena vrijednost slučajno odabrana iz intervala <-1,1> • Podaci imaju graničnu nekonzistentnost • neispravan primjer nikad nije dalje od jedinične vrijednosti • Oblikovana je definicija bliskosti koja kaže da je susjed maksimalno udaljen za jediničnu vrijednost
2. PRIMJER • Rezultati testiranja:
2. PRIMJER • Ovaj primjer pokazuje da je ovaj algoritam ispravan kada se radi sa podacima koji imaju malu pogrešku zbog mjerenja i kada znamo točno kolika je ta pogreška • Čak je dozvoljeno da svi podaci budu neispravni (ali unutar poznatih granica)
RASPRAVA • ovaj algoritam jako je osjetljiv na konceptno opisni jezik i definiciju bliskosti • ako je granica susjedstva jako mala ruši se prostor inačica kao da nije ni uvedena • ako je granica susjedstva prevelika svaki primjer će imati puno susjeda i postupak postaje presložen i neizračunljiv • ako je jezik za opis koncepata previše grub primjeri neće imati susjede (npr. kod irisa je to broj decimala) • ako je jezik prefin onda primjeri imaju previše susjeda • bitno za brzinu konvergencije ka konačnom konceptu
RASPRAVA • Idealna situacija: • točno se zna definicija susjedstva • dobro odabran konceptni jezik • 2. primjer je nekakva idealna situacija • Realnost: • ne zna se ni jedno ni drugo ili samo jedno • Primjer sa irisima: • u početku nije bio dobar ni konceptni jezik ni definicija bliskosti, tek su se nakon par izvođenja algoritma odredili konceptni jezik i def. bliskosti
3. PRIMJER • poboljšanje 2. primjera • svim se primjerima dodaje slučajna vrijednost iz intervala <-1,1> • mijenja se definicija bliskosti (0-3) • 3 atributa • 216 koncepata
3. PRIMJER • k obilježja, m intervala veličine w, iznos šuma d<=w, očekivani broj susjeda je • ovo pokazuje da def. bliskosti ne smije biti prefina, a ni pregruba
FORMALNI REZULTATI • nedavni teorijski rad nad konceptima: kako dobiti kvalitetne rezultate s obzirom na ulazne podatke • Potrebno uvesti definicije: • Definicija 4.1 Susjed(x)={y|y je blizu x} Dobije se skup primjera koji su susjedi od x • Definicija 4.2 Za primjer x kaže se da je konzistentan sa konceptom C (piše se Konzistentan(x,C)) ako, kada je x pozitivan, p Susjed(x) i pC, i kada je x negativan, n Susjed(x) i nC (kada je pC to znači da ga koncept C klasificira kao pozitivnog, i nC znači da koncept C klasificira n kao negativni primjer)
FORMALNI REZULTATI • Definicija 4.3 Greška(h,C)=vjerojatnost da se slučajno odabran primjer x klasificira kao pozitivni ili negativni primjer od C, tako da ne vrijedi Konzistentan(x,h) • Lema 4.1 Vjerojatnost da neki element prostora inačica generiran od m primjera iz C ima grešku veću od je manja od |H|e-m, gdje je |H| broj izraza u konceptnom opisnom jeziku H korištenom u inkrementalnom spajanju prostora inačica.
FORMALNI REZULTATI Dokaz: Pretpostavimo da neki skup hipoteza h1,...,hn u konceptnom opisnom jeziku H ima grešku veću od s obzirom na koncept C. Ovo znači da je vjerojatnost da je primjer iz C konzistentan sa hipotezom hi manja od (1-). Vjerojatnost da je hi konzistentna sa m neovisnih primjera iz C je zbog toga manja od (1-)m. Konačno, vjerojatnost da je neka hih1,...,hk konzistentna sa m primjera je ograničena sa sumom njihovih pojedinačnih vjerojatnosti, tako da vjerojatnost da neka hi sa greškom većom od (s obzirom na C) je konzistentna sa m primjera iz C je manja od k(1-)m. Budući da je k<=|H| i (1-)m<=e-m, vjerojatnost dobivanja neke hipoteze sa greškom većom od konzistentne sa m neovisnih primjera iz C je manja od |H|e-m.
FORMALNI REZULTATI Korolar 4.1 Vjerojatnost da svi elementi skupa inačica generirani od najmanje primjera iz skupa C imaju grešku manju od je 1 - . Dokaz: Rješavanje < |H|e-m po m daje traženi rezultat.