160 likes | 309 Views
SAS Enterprise Miner 2. gyakorlat. Sidló Csaba scs@elte.hu http://scs.web.elte.hu. Osztályozás, előrejelzés. Osztályozás: Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). megfigyelések. ….
E N D
SAS Enterprise Miner2. gyakorlat Sidló Csaba scs@elte.hu http://scs.web.elte.hu
Osztályozás, előrejelzés Osztályozás: Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). megfigyelések … célváltozó input Előrejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).
Osztályozás példák • banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhető ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) • direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal • stb.
Osztályozás folyamata Ismert adatok Új adatok tanítási halmaz teszt halmaz Előrejelzés Tanuló rendszer modell
Modellépítés • Adathalmaz partícionálás: • training set: modell építéséhez használt adathalmaz • validation set: modell hangolásához, finomításához használt adathalmaz • test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)
Döntési fa példa hitelbírálatra(forrás: http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/adatbanyaszat.pdf)
Döntési fa • szabályok leírása fa formában; belső pontokhoz megfeleltetünk egy vágási feltételt, ami kettő vagy több osztályt határoz meg • felépítéséhez eldönteni: • milyen feltétel, milyen attribútum szerint vágjunk, • mikor hagyjuk abba a felosztásokat • prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot • postpruning: felépítünk egy „nagy” fát, majd ezt „visszavágjuk” a megfelelő méretre • döntési fa előnye: a felépített modell könnyen értelmezhető
Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. • többszintű perceptron modell • „universal approximator” tulajdonság: tetszőleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) • hiányzó értékeket nem tudja kezelni forrás: Gregorics Tiborhttp://people.inf.elte.hu/gt/mi/neuron/neuron.pdf
Modellek összehasonlítása Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve őket, hogy az előrejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya?
Feladat 1. Adathalmaz: Magyarország települései (http://ksh.hu) • séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) • ksh_telep.xls / ksh_telep.csv Feladat: építsünk modelleket a települések igazgatási rangjának előrejelzésére a terület, népesség és lakásszám adataik alapján, majd ezeket hasonlítsuk össze, értékeljük. (Az eredmény a gyakorlatban kevéssé hasznos egyébként.) Adatok: http://scs.web.elte.hu/em/datasets/
Klaszterezés • Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülő elempárok lényegesen hasonlóbbak egymáshoz, mint különböző klaszterek elempárjai. • ehhez: megfelelő hasonlósági függvény bevezetése, • klaszterezés „jóságának” valamilyen mértéke • MI megfelelője: felügyelet nélküli tanulás • particionáló klaszterező algoritmusok: adott klaszterezés folyamatos finomításával haladunk előre, amíg az eredmény elég „jó” nem lesz
Feladat 2. Adathalmaz: Magyarország települései (http://ksh.hu) • séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) • ksh_telep.xls / ksh_telep.csv Feladat: klaszterezzük Magyarország településeit népesség és lakásszám alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok: http://scs.web.elte.hu/em/datasets/
Egyéb, nem tárgyalt témák • Dimenzió-csökkentés (főleg klaszterezésnél fontos) • osztályozás: regresszió; „oversampling” probléma stb. • outlier elemek szűrése; hiányzó értékek pótlása stb. • modell exportálása SAS illetve C kód formájában • változó transzformációk EM eszközei • mintavételezés • profit mátrix • modellek egyesítése (ensemble) • stb.
Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu) • séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) • energiatáblázat.xls / energiatáblázat.csv Feladat: építsünk modelleket az ételek kategóriájának előrejelzésére a fehérje, szénhidrát, zsír és energiatartalmuk alapján, majd ezeket hasonlítsuk össze, értékeljük. Adatok: http://scs.web.elte.hu/em/datasets/
Feladat 4. Adathalmaz: Energiatáblázat (http://body.builder.hu) • séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) • energiatáblázat.xls / energiatáblázat.csv Feladat: klaszterezzük az étel-alapanyagokat fehérje, szénhidrát, zsír és energiatartalom alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok: http://scs.web.elte.hu/em/datasets/