260 likes | 488 Views
SAILKAPEN ZUHAITZAK GARATZEKO TRESNA. Egilea: Aritz Rabadan Amas Zuzendaria: Basilio Sierra Araujo Karrera Bukaerako Proiektua, Ekainak 2001. E DUKIAK. SARRERA GAINBEGIRATUTAKO SAILKAPENA SAILKAPEN ZUHAITZAK EGINDAKO APLIKAZIOA ONDORIOAK. SARRERA. KZAA Sailak proposatutako proiektua
E N D
SAILKAPEN ZUHAITZAK GARATZEKO TRESNA Egilea: Aritz Rabadan Amas Zuzendaria: Basilio Sierra Araujo Karrera Bukaerako Proiektua, Ekainak 2001
EDUKIAK • SARRERA • GAINBEGIRATUTAKO SAILKAPENA • SAILKAPEN ZUHAITZAK • EGINDAKO APLIKAZIOA • ONDORIOAK
SARRERA • KZAA Sailak proposatutako proiektua • HELBURUAK • Tresna bisual bat garatzea • Sailkapen zuhaitzak eraiki, bisualizatu, inprimatu eta testeatzeko • Erabilterraza izatea • Dozentzian erabilgarria izatea • Euskaraz egindako tresna izatea
GAINBEGIRATUTAKO SAILKAPENA • Patroien ezagutzari lotutako familia da • Helburua: datu multzo batetik “eredu” bat eraikitzea, kasu berriak sailkatzeko gai izango dena.
DATU MULTZOAK • ENTRENAMENDUKO DATU-BASEA: Eredua eraikitzeko erabiltzen den datu multzoa • TESTEOKO DATU-BASEA:Eraikitako eredua probatzeko balio duen datu multzoa
SAILKATZAILE MOTAK • SAILKAPEN ZUHAITZAK • K-NN (k auzokide hurbilenak) • NAIVE-BAYES
SAILKATZAILEEN EGOKITASUNA • ASMATZE-TASA:Ereduak kasuak esleitzean egiten dituen asmatzeak • AZKARTASUNA:Kasu berri bat sailkatzeko behar den denbora • SINPLETASUNA:Ereduaren egituraren konplexutasuna neurtzeko
BALIDAZIOA • Hold-Out • Leave One Out • Boostrapping • X-Fold Crossvalidation
SAILKAPEN ZUHAITZAK • Aukeratzeko arrazoiak: • Edozein domeinutan erabilgarria • Errepresentazio sinplea • Eredua ez da aldatzen ikasketaren ordenaren arabera • Batez ere komenigarriak: • Aldagai binarioekin • Soinua duten datu multzoekin
DATUEN EGITURA • Atributu motak: • Tarte atributuak • Atributu ordinalak • Atributu nominalak • Arazoak • Balio ezezagunak • Soinua
ZUHAITZEN EGITURA • Osagaiak: • Nodoak • Adarrak • Hostoak • Motak: • Dikotomikoak/Politomikoak • Monotetiko/Politetikoak X <1 >=1 Bai Ez
ZUHAITZEN ERAIKUNTZA • Top Down Induction of Decision Trees (T.D.I.D.T) • Algoritmoak: ID3, C4.5 • Datuak zatitzen joaten da • Nodo bakoitzean zein atributu aukeratuko den hautatu behar da • Hostoa edo nodoa noiz eraiki behar den erabaki
ATRIBUTUAREN AUKERAKETA • Quinlan-en neurria (Gain) • Chi-square • G estatistikoa • Probabilitateak • Gini • Gain Ratio
OVERFITTING • Arazoa: Eraikitako zuhaitza entrenamenduko multzoari gehiegi egokitzen zaio. • Irtenbidea: Inausketa erabili • Inausketa • Aurreinausketa
TESTEAKETA • Potentzia • Sinpletasuna • Ulergarritasuna
APLIKAZIOA • Visual C++ 6.0 erabiliz garatu da • Arrazoiak: • Ingurune bisuala • C programazio lengoaia • Objektuetara zuzendua • Liburutegi asko
ENTRENAMENDUKO DATU-BASEA • Diskretuak: Aldagai guztiek balio diskretuez osatuta daudenean • Jarraiak: Aldagai batek balio jarraiez osatuta dagoenean
DISKRETIZAZIOA • Datu jarraiak -> Datu diskretuak • Diskretizatzeko metodoa • Tarte kopurua definitu • Datu kopuruaren arabera mugak finkatu • Tarte bakoitzari balio diskretu bat esleitu • Datuen balio jarraiak dagokien balio diskretuez ordezkatu
AUKERAK • Sailkapen zuhaitza eraiki eta ikusi • Zuhaitza testeatu • Kasu konkretu baten ibilbidea ikusi • Datu jarraiak zein diskretuak maneiatzeko gai izatea • Emaitzak inprimatu eta gordetzeko aukera izatea
ZUHAITZA MARRAZTU • 2 dimentsioetan • Zuhaitzean zehar mugitzeko Scroll-a • 3 Zoom ezberdin • Marrazteko metodo berezia • Nodoak eta hostoak ez dira gainjartzen • Edozein nodo kopuruarentzat baliogarria
ZUHAITZAREN TESTEAKETA • Testeatzeko Datu-Basea kargatu • Ereduaren testeaketa egin • Emaitzak pantailaratu • Aldagaien informazioa • Asmatze-tasa • Missclassification Matrix • Kasu bakoitzari esleitutakoa
PANTAILAK INPRIMATU • Edozein pantaila inprimatzeko aukera: • Zuhaitza • Testeaketaren emaitzak • Kasu konkretuaren ibilbidea • Diskretizazio tarteak • Aukerak
PROGRAMAREN ITXURA • Windows programen itxura • Instalatu/Desinstalatzeko aukera • Guztiz bisuala • Dozentzian erabiltzeko egokia
ONDORIOAK • Sailkapen zuhaitzak maneiatzeko tresna egokia lortu da • Erabilterraza eta atsegina • Emaitzak gordetzeko eta inprimatzeko aukera • Programa hedatzeko erraza • Euskaraz egina
AURRERA BEGIRA • On line laguntza • Aukera gehiago • Algoritmo ezberdinak • Atributuak aukeratzeko metodo ezberdinak • Zuhaitzen marrazkiak gordetzeko formatu bat bilatzea