1 / 16

SAS Enterprise Miner 2. gyakorlat

SAS Enterprise Miner 2. gyakorlat. Sidló Csaba scs@elte.hu http://scs.web.elte.hu. Osztályozás, előrejelzés. Osztályozás: Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). megfigyelések. ….

moke
Download Presentation

SAS Enterprise Miner 2. gyakorlat

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SAS Enterprise Miner2. gyakorlat Sidló Csaba scs@elte.hu http://scs.web.elte.hu

  2. Osztályozás, előrejelzés Osztályozás: Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). megfigyelések … célváltozó input Előrejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).

  3. Osztályozás példák • banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhető ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) • direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal • stb.

  4. Osztályozás folyamata Ismert adatok Új adatok tanítási halmaz teszt halmaz Előrejelzés Tanuló rendszer modell

  5. Modellépítés • Adathalmaz partícionálás: • training set: modell építéséhez használt adathalmaz • validation set: modell hangolásához, finomításához használt adathalmaz • test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)

  6. Döntési fa példa hitelbírálatra(forrás: http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/adatbanyaszat.pdf)

  7. Döntési fa • szabályok leírása fa formában; belső pontokhoz megfeleltetünk egy vágási feltételt, ami kettő vagy több osztályt határoz meg • felépítéséhez eldönteni: • milyen feltétel, milyen attribútum szerint vágjunk, • mikor hagyjuk abba a felosztásokat • prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot • postpruning: felépítünk egy „nagy” fát, majd ezt „visszavágjuk” a megfelelő méretre • döntési fa előnye: a felépített modell könnyen értelmezhető

  8. Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. • többszintű perceptron modell • „universal approximator” tulajdonság: tetszőleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) • hiányzó értékeket nem tudja kezelni forrás: Gregorics Tiborhttp://people.inf.elte.hu/gt/mi/neuron/neuron.pdf

  9. Modellek összehasonlítása Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve őket, hogy az előrejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya?

  10. Feladat 1. Adathalmaz: Magyarország települései (http://ksh.hu) • séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) • ksh_telep.xls / ksh_telep.csv Feladat: építsünk modelleket a települések igazgatási rangjának előrejelzésére a terület, népesség és lakásszám adataik alapján, majd ezeket hasonlítsuk össze, értékeljük. (Az eredmény a gyakorlatban kevéssé hasznos egyébként.) Adatok: http://scs.web.elte.hu/em/datasets/

  11. Klaszterezés • Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülő elempárok lényegesen hasonlóbbak egymáshoz, mint különböző klaszterek elempárjai. • ehhez: megfelelő hasonlósági függvény bevezetése, • klaszterezés „jóságának” valamilyen mértéke • MI megfelelője: felügyelet nélküli tanulás • particionáló klaszterező algoritmusok: adott klaszterezés folyamatos finomításával haladunk előre, amíg az eredmény elég „jó” nem lesz

  12. K-means algoritmus (forrás: Lukács András diái)

  13. Feladat 2. Adathalmaz: Magyarország települései (http://ksh.hu) • séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) • ksh_telep.xls / ksh_telep.csv Feladat: klaszterezzük Magyarország településeit népesség és lakásszám alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok: http://scs.web.elte.hu/em/datasets/

  14. Egyéb, nem tárgyalt témák • Dimenzió-csökkentés (főleg klaszterezésnél fontos) • osztályozás: regresszió; „oversampling” probléma stb. • outlier elemek szűrése; hiányzó értékek pótlása stb. • modell exportálása SAS illetve C kód formájában • változó transzformációk EM eszközei • mintavételezés • profit mátrix • modellek egyesítése (ensemble) • stb.

  15. Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu) • séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) • energiatáblázat.xls / energiatáblázat.csv Feladat: építsünk modelleket az ételek kategóriájának előrejelzésére a fehérje, szénhidrát, zsír és energiatartalmuk alapján, majd ezeket hasonlítsuk össze, értékeljük. Adatok: http://scs.web.elte.hu/em/datasets/

  16. Feladat 4. Adathalmaz: Energiatáblázat (http://body.builder.hu) • séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) • energiatáblázat.xls / energiatáblázat.csv Feladat: klaszterezzük az étel-alapanyagokat fehérje, szénhidrát, zsír és energiatartalom alapján, majd vizsgáljuk az eredményül kapott klaszterek tulajdonságait. Adatok: http://scs.web.elte.hu/em/datasets/

More Related