1 / 22

SAS Enterprise Miner 1. gyakorlat

SAS Enterprise Miner 1. gyakorlat. Sidló Csaba scs@elte.hu http://scs.web.elte.hu. SAS Enterprise Miner. adatbányászati eszközkészlet, SAS keretrendszeren belül témák (két gyakorlatra): adatbányászat fogalma, feladatai Miner általános funkciói, felépítése

tuwa
Download Presentation

SAS Enterprise Miner 1. gyakorlat

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SAS Enterprise Miner1. gyakorlat Sidló Csaba scs@elte.hu http://scs.web.elte.hu

  2. SAS Enterprise Miner • adatbányászati eszközkészlet, SAS keretrendszeren belül • témák (két gyakorlatra): • adatbányászat fogalma, feladatai • Miner általános funkciói, felépítése • adatbányászati eszközkészlet feltérképezése • feladatmegoldás: • asszociációs szabály keresés • előrejelzés (osztályozás) • klaszterezés

  3. Adatbányászat • SAS: „advanced methods for exploring and modelling relationships in large amounts of data” • Jiawei Han: „a tudás nagy mennyiségű adatból történő kinyerése, kibányászása” • Jeffrey D. Ullman: „discovery of useful summaries of data”

  4. Adatbányászat 2. • Irodalom: • Jiawei Han, Micheline Kamber: Adatbányászat – Koncepciók és technikák (PANEM, 2004 – ld. jegyzetbolt) • Bodon Ferenc magyar nyelvű jegyzete: http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/ • Ullman: http://www-db.stanford.edu/~ullman/cs345-notes.html • Iványi Antal (szerk): Informatikai algoritmusok II. (ld. jegyzetbolt, de még megjelenés előtt áll): klaszterezés, gyakori termékhalmaz kereséss • SAS help + weben elérhető anyagok (érdemes keresni)

  5. Adatbányászat 3. • „Multidiszciplinális” tudományág: Statics PatternRecognition Neurocomputing Data Mining MachineLearning AI Databases KDD

  6. Adatbányászat - feladatok • gyakori minták kinyeréseasszociációs szabályok keresése, gyakori elemhalmazok keresése, epizódkutatás, … • előrejelzés és osztályozásellenőrzött tanulás (supervised learning), predikció, klasszifikáció, … • klaszterezéshalmaz elemeinek csoportokba sorolása, valamely hasonlósági / távolsági függvény alapján; felügyelet nélküli tanulás (unsupervised learning) + egyéb speciális feladatok, eltérő megfogalmazások

  7. Enterprise Miner vs. egyéb adatbányász eszközök forrás: http://www.metagroup.com/webhost/ONLINE/477658/60.1marketsummary.pdf • Angoss Software KnowledgeStudio and Mining Manager • Computer Associates CleverPath Predictive Analysis Server • Fair Isaac Enterprise Decision Management suite • Genalytics Predictive Suite • IBM DB2 Intelligent Miner • Insightful Miner • KXEN Analytic Framework • Oracle Data Mining (adatbázisba integrált funkciók!) • Quadstone System • SAS Enterprise Miner (5.1!) • SPSS Clementine • SAP (adattárház integráció!) • stb.

  8. Enterprise Miner vs. egyéb adatbányász eszközök

  9. EM használata • Project fogalma • Diagram fogalma • SAS Base – SAS Enterprise Miner kapcsolata • input: SAS Datasets • output: beszámolók, valamint modellek hordozható formában: C kód, SAS kód • cél: az adott eszközök használatával diagramok építése, aminek segítségével a rejtett tudás kinyerhető • ehhez szükséges: az adatok, a feladat, a szakterület és az eszközök ismerete • nem feltétlenül szükséges: megoldó algoritmusok ismerete

  10. SEMMA SAS adatbányászati eszközök csoportosítása a tudásfeltárás folyamatának megfelelően. • Sampling (mintavételezés)input data set, mintavételezés, particionálás • Exploring (adatfeltárás)statisztikus és grafikus adatelemző eszközök, asszociációs szabály keresés, fontos változók kiemelése • Modify (adatmódosítás)adatelőkészítés elemzéshez, outlier-ek, hiányzó értékek, klaszterezés, változók szerepének módosítása • Model (modellépítés)osztályozáshoz használható modellek: döntési fa, neurális háló, regresszió • Assess (kiértékelés)modellek összehasonlítása, beszámolók Továbbiakban a konkrét eszközök közül megnézzük a fontosabbakat.

  11. Screenshot – EM

  12. Asszociációs szabály keresés forrás: Lukács András adatbányászat órája (http://www.sztaki.hu/~alukacs/)

  13. Asszociációs szabály keresés 2.

  14. Feladat 1. Adathalmaz: FIMI workshop 2003. (http://fimi.cs.helsinki.fi/fimi03/)  RETAIL: (TID, ITEM) séma: klasszikus vásárlói kosár elemzés Keressünk gyakori termékhalmazokat, illetve asszociációs szabályokat. Adatok: http://scs.web.elte.hu/em/datasets/retail_td.dat Közösen!

  15. Feladat 1. - lépések • library létrehozása • adatfile importálása  sas dataset • EM project és diagram létrehozása • input data source beállítása • statisztikai elemzés: eloszlások (legalább) • asszoc. szabályok keresése

  16. egy library  sas dataset megfelelője attribútumok szerepének kijelölése attribútumok alapstatisztikái (mint metaadatok) vizualizációs eszköz, multidimenzionális hisztogramok, eloszlások vizsgálatához Input Data Source Distribution Explorer

  17. másik vizualizációs, grafikus adatelemző eszköz automatikus bar chart / scatter plot generálás SAS statisztikai elemző alkalmazása nagy funkcionalitás több ablakos, egymással együttműködő aktív elemekkel rendelkező elemző eszköz Multiplot Insight

  18. asszociációs szabály kereső algoritmus implementáció szekvencia elemzés szintén lehetséges, ehhez kell még egy „sequence” bemeneti változó Association

  19. Feladat 2. Adathalmaz: [origo] fórumok hozzászólásai (http://www.origo.hu) • séma: (USERID, TOPICNAME) • jelentése: 2000-ben (egy egyedi id mögé rejtett) felhasználó mely topic-okhoz szólt hozzá. Melyek a gyakori topic-halmazok, illetve a topicok közti nagy bizonyosságú asszociációs szabályok? Adatok: http://scs.web.elte.hu/em/datasets/origo-user-topic-2000-distinct.xls Egyénileg megoldani, kérdezni, mindent kipróbálni!

  20. Feladat 3. Adathalmaz: Energiatáblázat (http://body.builder.hu) • séma: (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT, ZSIR, ENERGIA) • energiatáblázat.xls / energiatáblázat.csv Adathalmaz: Magyarország települései (http://ksh.hu) • séma: (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV, IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG, LAKASSZAM) • ksh_telep.xls / ksh_telep.csv Feladat: importáld az adathalmazokat, majd állapítsd meg alapvető statisztikai jellemzőiket. Adatok: http://scs.web.elte.hu/em/datasets/

  21. Következő gyakorlat • Predikció: döntési fák, neurális hálók, regresszió, egyéb kapcsolódó eszközök • Klaszterezés • alkalmazott matematikusok: témák megbeszélése • ZH: két hét múlva, addig gyakorolni!

More Related