360 likes | 531 Views
Többváltozós adatelemzés. 11. előadás. Döntési fák. Nem a klasszikus statisztikai módszertan terméke Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában Több algoritmus együttes neve. Döntési fák.
E N D
Többváltozós adatelemzés 11. előadás
Döntési fák • Nem a klasszikus statisztikai módszertan terméke • Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában • Több algoritmus együttes neve
Döntési fák • Meg szoktak különböztetni klasszifikációs és regressziós fákat: • Klasszifikációs fák esetén az eredményváltozó egy kategóriaváltozó (nem feltétlenül két kategóriájú) • Regressziós fák esetén az eredményváltozó egy legalább intervallum szinten mért (folytonos) változó
Döntési fák • A döntési fák előnye, hogy az adatokban meglévő nemlineáris hatásokat képesek észrevenni és lekövetni • Hátránya, hogy az ez előző pontban leírt rugalmasság lehet túlzott is: már nem az általános érvényű összefüggéseket tárja fel, hanem csak az arra az adatbázisra jellemző specialitásokat, ‘rátanul a zajra’.
Döntési fák • A döntési fák módszertana (alapesetben) két részből áll: • Elágaztatás • Metszés. Az elágaztatott fák visszametszése
Elágaztatás • Adott egy ún. tisztasági mérték. A tisztasági mérték azt mutatja, hogy az összsokaság mennyire homogén • Tisztasági mértékre több mutatószám lehetséges: • Ún. Gini index • Entrópia • Khi-négyzet statisztika • Stb …
Elágaztatás • Az összsokaságot kétfele (vagy többfele) osztjuk úgy, hogy a részsokaságok tisztasága a lehető legnagyobb mértékben növekedjen
Elágaztatás Gini index: 2*p*(1-p), ahol p a ‘comeniusI’ arányát jelenti Esetünkben: 2*0,737*0,263=0,388
Elágaztatás Gini növekmény: 0,388-0,927*(2*0,739*0,261)-0,073*(2*0,712*0,288)=0,000464
Elágaztatás Gini növekmény: 0,388-0,263*(2*0,966*0,034)-0,737*(2*0,655*0,345)=0,037637
Elágaztatás • Megkeressük azt az elágaztatást, amely esetén a tisztasági mérték a lehető legnagyobb mértékben nő • Kérdés, hogy hányfelé ágaztatunk. Ez alapján beszélhetünk bineáris illetve nem bineáris fákról • Nominális változók esetén az összes lehetséges párosítást figyelembe veszi. Ordinális változók esetén a sorrendet nem bontja meg, ‘folytonos’ változók esetén nem veszi figyelembe az összes lehetséges vágást, csak pl. a deciliseket.
CRT (CART) algoritmus • Classification And Regresion Tree • Az egyik ‘klasszikus’ eljárás • Általában bineáris fákat hoz létre • Általában a Gini index tisztasági mérték
CRT algoritmus Tanuló állomány Teszt állomány
CRT algoritmus • A döntési fát nem érdemes engedni, hogy minden határon túl nőjön, vagy ha engedtük túl nagyra nőni érdemes visszametszeni
CRT algoritmus • Meddig engedjük nőni a döntési fát? • ‘Klasszikus’ megfontolás: egy fát addig engedünk nőni, amíg az újonnan létrejövő vágások nemcsak a tanuló, hanem a tesztadatokon is javulást mutatnak. Ha ennél tovább engedjük nőni, akkor már csak az adott adatbázis specialitásait fedezi fel (‘rátanul a zajra’).
CRT algoritmus Teszt állomány Tanuló állomány
CRT algoritmus • A fa növekedését nem engedjük bizonyos határon túl nőni: • Meg lehet szabni a fa maximális mélységét • Meg lehet szabni, hogy egy ‘levélen’ minimum mennyi megfigyelésnek kell lenni. Ez lehet abszolút érték is és lehet relatív is
CRT algoritmus • A döntési fa még akkor is ‘rátanulhat a zajra’, ha a növekedésére korlátokat szabunk. Ezért a döntési fát vissza szokás metszeni (pruning).
CRT algoritmus • Definiálunk egy mértéket, ami figyelembe veszi a fa méretét is és a besorolás jóságát is: • Rα(T)=R(T)+α|T|, ahol R(T) besorolás jóságát mutatja, |T| pedig a döntési fa méretét (a ‘levelek’ számát).
CRT algoritmus A visszametszett fa csak a ‘gyökeret’ tartalmazza
CRT algoritmus • Mivel a metszés a helyesen besorolt megfigyelések alapján van elvegezve, ezért ha valamelyik kategória ‘kicsi valószínűségű’, akkor minden becsült érték a ‘nagy valószínűségű’ kategória lesz, tehát a besorolás jóságát nem tudja növelni a fa. Ezt elkerülendő nagyobb súlyt adhatunk bizonyos téves klasszifikációknak.
CHAID algoritmus • Chi-square Automatic Interaction Detector • A CRT algoritmushoz képest sokkal inkább statisztikai alapú • A tisztasági mérték itt a Chi négyzet statisztika • Statisztikailag tudjuk tesztelni a növekedést, ezért nem szükséges a metszés • Egy ágaztatásnál 2-nél több ág is keletkezhet (nem bineáris fa)
CHAID algoritmus • Folytonos változók: • Deciliseket hoz létre a változókból. Mindig a két legkevésbé különböző (a függetlenségvizsgálat során a nulhipotézist a legkisebb valószínűséggel utasítjuk vissza) decilist összevonja. Az összevonásokat addig ismétli, amig egy előre magadott szignifikancia szinten már el nem tudjuk utasítani a nulhipotézis.
CHAID algoritmus • Diszkrét változók: • A meglévő kategóriákat vonja össze a függetlenségvizsgálat eredménye alapján. Nominális változók esetén bármelyik két kategóriát összevonhatja, ordinális változók esetén csak az egymás melletti kategóriákat.
CHAID algoritmus • Mindegyik lehetséges változót megvizsgálja: elvégez egy függetlenségvizsgálatot az eredményváltozó kategóriái és a magyarázó változó (összevont) kategóriái alapján • Aszerint a változó szerint ágaztat, ahol nulhipotézist a legnagyobb valószínűséggel tudjuk visszautasítani, de legalább egy előre adott biztonági szinttel.
Exhaustive CHAID algoritmus • Nagyon hasonló a CHAID algoritmushoz, egy különbség van csak: • Amikor a deciliseket (vagy a kategóriaváltozókat) összevonja nem áll meg, hanem addig egyesíti a deciliseket, amig minden megfigyelés közös csoportb nem kerül. Ezután azt a felosztást fogadja el, amikor a függetlenséget a legnagyobb valószínűséggel tudjuk visszautasítani.
Vágások • A vágások az SPSS programcsomagban a tengelyekkel párhuzamosan történnek. Ez a magyarázhatóságot nagyban segíti, azonban ez elméletet lehet alkalmazni akkor is, ha a vágások nem a tengelyekkel párhuzamosan történnek, hanem a változók valamilyen lineáris kombinációja mentén
Vágások • Az elméletet továbbfejlesztették úgy is, hogy a vágások nem csak egyenesek mellett, hanem bármilyen más görbe mellett is lehetséges legyen (parabola, hiperbola, kör …)
Döntési fák • A döntési fa algoritmusok az adatokban rejlő nemlineáris hatásokra maguktól rá tudnak találni. • Hátrányuk viszont, hogy az összsokaságot minden egyes vágásnál részeire bontja, így csak egyre erősebb hatásokat képes kimutatni.