1 / 36

Konstruktivna indukcija s kr čenjem prostora atributov

Konstruktivna indukcija s kr čenjem prostora atributov. (diskusija na temo dela za doktorsko disertacijo). Konstruktivna indukcija in krčenje prostora atributov?!. Prostor atributov se ne more širiti Nasprotno – od konstruktivne indukcije smemo kr čenje celo pričakovati.

calix
Download Presentation

Konstruktivna indukcija s kr čenjem prostora atributov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Konstruktivna indukcijas krčenjem prostora atributov (diskusija na temodela za doktorsko disertacijo)

  2. Konstruktivna indukcijain krčenje prostora atributov?! • Prostor atributov se ne more širiti • Nasprotno – od konstruktivne indukcije smemo krčenje celo pričakovati. • Naslov namiguje na način tvorbe atributov: konstruktivna indukcija z minimizacijo kartezičnega produkta vezanih atributov

  3. Vsebina • Operatorji in njih ocenjevanje • Dve “znani” metodi CI s splošnimi operatorji • Splošni okvir CI z minimizacijo kartezičnega produkta • Modifikacije funkcijske dekompozicije in posledice • Še dve metodi iz splošnejšega okvira

  4. 1 Določanje operatorja CI združi enega ali več atributov v nov atribut s pomočjo primernega operatorja. Vnaprej predpisana množica operatorjev (Fringe, LFC... ...) Splošni operatorji (operator-free) (Pazzani, CN2-MCI, Hint) • išče po večjem prostoru (tudi med modeli, kakršne generiramo z Dexom) • je v splošnem počasnejše • je v splošnem manj odporno na šum

  5. 0 1 0 1 0 1 0   0   0   1   1   1   (and) (xor) (or) Minimizacija kartezičnega produkta • Nov atribut sestavimo kot kartezični produkt enega, dveh ali več starih • Posamezne vrednosti novega atributa združimo v podmnožice “ekvivalentnih” vrednosti • Operator slika iz originalnih vrednosti v ekvivalenčne razrede

  6. Učenje s sestavljanjem disjunktnih hierarhij:Koncepti, ki jih potrebujemo za učenje, imajo več vrednosti, kot bi jih pričakovali, in so človeku nerazumljivi Kako oceniti operator? Kaj pričakujemo od operatorja oz. novega atributa? Razumljivost človeku • logičnost, pričakovanost, skladnost s poznavanjem domene (oz. z definicijo domene, če gre za umetno domeno) • navadno iz neke množice znanih operatorjev ali iz nekega razreda operatorjev (npr. nepadajoče funkcije) Uporabnost pri učenju • odvisen od metode učenja, ki jo nameravamo uporabiti (Bayes, klasifikacijska drevesa, HINT)

  7. f g Razdalja med pravim in “napovedanim” operatorjem • Manhattanska razdalja (uporabna le za binarne konstrukte) • Splošno – število kršitev ekvivalenčne relacije f(x)=f(y)  g(x)=g(y) Kršitve: () razdruženi 3 () združeni 3 () razdalja 6

  8. Razdalja med pravim in “napovedanim” operatorjem (2) Dobro: Zanimivo: Slabo: učinkovita implementacija meri sta pri binarnih konstruktih ekvivalentni(= enako rangirata operatorje) dobljene razdalje so neintuitivne (ne merijo tistega, kar bi želeli meriti; metode rangirajo drugače, kot bi jih “očividec”)

  9. Razdalja med pravim in “napovedanim” operatorjem (3) metoda w_sep w_join w_pairs skupine ciljni koncept{0, …, 25}, {26} FD-m 0.80 0.00 0.77 {0}, {1, 3, 9, 13},{2, 4, 6, 10, 12, 18},{5, 7, 11, 15, 19, 21},{8, 14, 16, 20, 22, 24},{17, 23, 25}, {26} Kramer-m 0.00 1.00 0.07 {0, …, 26}

  10. Razdalja med pravim in “napovedanim” operatorjem (4) Tolažba: Mera nudi vpogled v to, katera metoda združi preveč in katera premalo vrednosti

  11. Uporabnost pri učenju Ovijanje (Kohavi: wrapper approach) • sestavi atribute z različnimi metodami in jih dodaj k obstoječim; vsaka metoda definira množico atributov • nad dobljenimi množicami se uči z enim od običajnih algoritmov učenja (Bayes, C45, Hint...) • izmeri klasifikacijsko točnost Za izbrani učni algoritem je najboljša tista metoda konstrukcije atributov, ki da najvišjo klasifikacijsko točnost. Pričakovati je razlike glede na metodo učenja.

  12. 2 Dva ali trije znani postopki • HINT (min. kompl.): min. števila vrednosti z omejitvami • HINT (min. napake): min. napake z m-oceno • CN2-MCI – minimizacija nečistoče novega atributa

  13. CN2-MCI(korak minimizacije kartezičnega produkta) Nečistost clustra: Postopek: • v začetku je vsak element svoj cluster • izračunaj vsoto nečistoč po vseh clustrih • združi clustra, ki najmanj povečata vsoto nečistoč • ponavljaj, dokler ne ostaneta le dva clustra egative positive*n E(c) = + positive negative Kratkovidnost! Relief?!

  14. kombinacije vrednostivezanih atributov kombinacije vrednostiprostih atributov Funkcijska dekompozicija

  15. Funkcijska dekompozicijaminimizacija kompleksnosti • Združi dva združljiva stolpca (“clustra”) • Ponavljaj, dokler ne zmanjka združljivih stolpcev • (V resnici: barvanje grafov)

  16. Funkcijska dekompozicijaminimizacija napake • Za vsak par stolpcev izračunaj vsoto zmanjšanja m-ocen napake pri združitvi vsakega para celic • Združi stolpca, pri katerih se napaka najbolj zmanjša • Ponavljaj, dokler obstajajo pari stolpcev, ki manjšajo napako

  17. FD, CN2-MCI in kratkovidnost CN2-MCI je kratkoviden, funkcijska dekompozicija pa ne Nekratkovidnost funkcijske dekompozicije ima isti izvor kot Reliefova nekratkovidnost: primerjanje elementov po vrsticah ima učinek je podobno jemanju najbližjih (oz. “enakih” sosedov) Vendar: nekratkovidnost ni vedno potrebna; včasih le zmanjšuje natančnost (Pri naivnem Bayesovem klasifikatorju je govorjenje o nekratkovidnosti greh!)

  18. Slabosti funkcijske dekompozicije Disjunktnost Ker vrstice particijske matrike ustrezajo različnim vrednostim prostih (in ne vseh!) atributov, je novi atribut sestavljen tako, kot da bomo vezane atribute odstranili. (Kaj je nedisjunktnost?! Lahko govorimo o njej že med sestavljanjem atributov?! Kako prepoznati dober “nedisjunktni” atribut?!) Počasna rast krivulj učenja Kadar je pokritost prostora slaba, je particijska matrika redka in postopek združevanja stolpcev slabo voden

  19. 3 HINT – min kompleksnosti HINT – min napake CN2-MCI particijska matrika vrednosti particijska matrika distribucij distribucije razredov število vrednosti + nedvoumnost m-ocena napake nečistoča vsi stolpci nezdružljivi napaka je (lokalno) minimalna ostali samo še dve vrednosti Splošni okvir postopkov CI z minimizacijo kartezičnega produkta • sestavi kartezični produkt podmnožice atributov • iz učnih primerov izračunaj informacijo o vsaki vrednosti kartezičnega produkta (DCI) • upoštevajočkriterijsko funkcijoinkriterij ustavljanja poišči optimalni operator

  20. 4 Različice postopkov funkcijske dekompozicije Particijska matrika • običajna matrika • vse elemente v stolpcu seštejemo (CN2-MCI) • vmesne različice • seštevanje sosednjih vrstic • Relief • vezani atributi tudi v vrsticah Postopek združevanja • hill-climbing • druge vrste clusteringa • omejitve (monotone funkcije)

  21. Različice postopkov funkcijske dekompozicije Različne kriterijske funkcije • m-ocena • nečistoče (CN2-MCI, informacijski prispevek, Gini-index) • druge mere (nezdružljivost, ???) Različni kriteriji ustavljanja • lokalni maksimum kriterijske funkcije • binarni, n-arni koncepti

  22. Različni kriteriji ustavljanja • Lokalni ekstrem kriterijske funkcije (m-ocena, Relief) • Binarni koncepti in n-arni koncepti – za ocene brez lokalnih ekstremov in za nedisjunktnost

  23. Običajna minimizacija kompleksnosti/napake: • a=b • a<>b a a a b b 1 1 2 2 3 3 b 1 2 3          1 1 1          2 2 2          3 3 3 Različni kriteriji ustavljanja:Binarni koncepti (a=b or a=c) = (d=e or d=f), vsi atributi 3-vrednostni • Običajna minimizacija kompleksnosti/napake: • a=b • a=1 • a=2 • a=3

  24. a b 1 2 3 4     1     2     3     4 Različni kriteriji ustavljanja:N-arni koncepti s=a=b, če c>2 Atributi so 4-vrednostni. a>b, sicer Običajno ustavljanje f(a, b, c, d, e) = s xor (d=e)

  25. a a b 1 2 3 4 b 1 2 3 4         1 1         2 2         3 običajno ustavljanje 3 3-vrednostni koncept       4   4 Različni kriteriji ustavljanja:N-arni koncepti s=a=b, če c>a; a>b, sicer... Da bi dobili želene nedisjunktne koncepte, “optimiziramo” isto kriterijsko funkcijo; spremenimo le kriterij ustavljanja

  26. Različne kriterijske funkcije Ni je čez m-oceno! • Na trivialnih domenah (Monk1, parnost...) funkcijska dekompozicija deluje sorazmerno neodvisno od izbire kriterijske funkcije • Na zahtevnejših domenah (od “a=b or a=c” naprej) ji za silo konkurira le še Gini-indexu podobna mera nečistoče, izpeljana iz Reliefa (simetričnega: referenčni in sosednji primer sta obravnavana enako) 2pi2 – ( pi)2

  27. Razlaga uspešnosti m-ocene:Drugačna narava m-ocene M-ocena je “absolutna”: Koliko bi se zmotili, če bi morali napovedovati razred za dano podmnožico? Mere nečistoč so “relativne” Koliko dela opravi ta atribut?(nadaljevali bodo drugi atributi) V particijski matriki so ostali atributi že upoštevani! Zato je potrebno oceniti sposobnost napovedovanja (m-ocena) in ne, koliko čistejše podmnožice smo dobili. Vendar ta razlika obstaja le pri večrazrednih problemih, m-ocena pa je najboljša tudi pri dvorazrednih!

  28. Razlaga uspešnosti m-ocene:M-ocena vsebuje kriterij ustavljanja M-ocena ni samo kriterij za združevanje, temveč ponuja tudi kriterij za ustavljanje, ki ga je mogoče naravnati. • Pri poskusih z merami nečistoče smo vedno sestavljali binarne koncepte, saj je nečistoča nepadajoča. V domenah, ki imajo binarne razrede (prejšnja stran) in zahtevajo binarne koncepte, dajejo mere nečistoče pravilne operatorje. • Mera, izpeljana iz Reliefa nekaj časa narašča, nato pada – podobno kot m-ocena. V domenah, ki zahtevajo binarne koncepte, daje ta mera enako dobre rezultate kot m-ocena (tudi, če razred ni binaren)

  29. Razlaga uspešnosti m-ocene:Poskus Atributi: a, b, c, d, e (4-vrednostni) Razred: random(0, 9) + 10*(a==b) Naloga: poiskati smiseln binarni operator za g(a, b) Predpostavljamo: • m-ocena bo zatajila, saj ni večinskega razreda • mere nečistoč bodo delovale Rezultat: • m-ocena deluje • mere nečistoč ne delujejo ?!

  30. Mehčanje particijske matrike Motivacija: particijska matrika razprši učne primere; pri premalo primerih je redka. Možnosti: • vsaka vrstica predstavlja kombinacijo vrednosti prostih atributov • k vsaki vrstici prištejemo (z za velikostni razred manjšo utežjo) vrstice, ki se razlikujejo le v vrednosti enega atributa • vsaka vrstica predstavlja k najbližjih sosedov enega referenčnega primera (ideja iz Reliefa) • na proste atribute se ne oziramo, vse vrstice so združene v eno

  31. Rezultati mehčanja part. matrike Domena nurseryz 10% šuma na 20, 40, ..., 640 primerih Včasih prej naraste; včasih je stalno boljša za 5-20%; nikoli ni slabša Časovna zahtevnost večja, časi izvajanja podobni (lahko tudi krajši)

  32. Mehčanje po vzoru Reliefa Ni pametnih rezultatov. Opcije: • določitev števila ref. primerov (le nekaj ali vsi) • določitev števila sosedov (konstantno ali sorazmerno številu stolpcev?) • ignorirati enake primere ALI vzeti vse enake primere ALI obnašati se do njih kot do ostalih • pretvoriti porazdelitev v binarno

  33. Vezani atributi tudi v vrsticah Motivacija: Prosti atributi določajo kontekst. Včasih atribut tvori svoj kontekst – oblika g(a, b) je odvisna (tudi) od vrednosti atributov a in b. Tudi to je oblika nedisjunktnosti! Težava: Luknjasta matrika nezdružljivosti – (n/2)! enakovrednih operatorjev Mar to res potrebujemo?

  34. 5 Minimizacija z naivnim Bayesovim klasifikatorjem Cilj: sestaviti koncepte, ki bodo pomagali naivnemu Bayesovemu klasifikatorju Ideja: kriterijska funkcija naj bo klasifikacijska točnost klasifikatorja na učnih podatkih. Rezultati: koncepti, dobljeni z minimizacijo napake so boljši Možna razlaga: hill-climbing je v tem primeru kratkoviden, lokalne odločitve so nezanesljive...

  35. Minimizacija z naivnim Bayesovim klasifikatorjem:Poskus na domeni Car min compl, min err,min err+bin bayes

  36. Clustering z Reliefom Cilj: sestavljati atribute z visoko oceno Relief. Algoritem: časovna zahtevnost ne presega zahtevnosti enega izračuna Reliefa Rezultati: prvi testi niso ohrabrujoči. Ideja zahteva več resnih poskusov.

More Related