1 / 33

Adatbányászat : Bevezetés

Adatbányászat : Bevezetés. 1. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton. Logók és támogatás.

holden
Download Presentation

Adatbányászat : Bevezetés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Adatbányászat: Bevezetés 1. fejezet Tan, Steinbach, Kumar Bevezetésazadatbányászatba előadás-fóliák fordította IspányMárton

  2. Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046 számú Kelet-magyarországi Informatika Tananyag Tárház projekt keretében készült. A tananyagfejlesztés az Európai Unió támogatásával és az Európai Szociális Alap társfinanszírozásával valósult meg.

  3. Miértbányásszunk? Üzletiszempontok • Rengetegadatgyűlikösszeésraktározódik el adattárházakban: • webadatok, e-kereskedelem, • vásárlásokáruházakbanésélelmiszerboltokban, • bank- éshitelkártyatranzakciók. • A számítógépekegyreolcsóbbak,nagyobbteljesítményűek. • A versenyerősödik • Nyújtsunkjobb, testreszabottabbszolgáltatást a versenyelőnyért(pl. CRM-ben).

  4. Miértbányásszunk? Tudományosszempontok • Óriásisebességgelgyűlnekéstárolódnakazadatok (GB/óra) • távérzékelőkműholdakon • távcsövekpásztázzákazeget • microarray mérések a génkifejeződésekre • szimulációk TB-nyiadatotgenerálnak • Hagyományosmódszerekalkalmatlansága • Azadatbányászatsegíthet a tudósoknak • adatokosztályozásábanésszegmentálásában, • hipotézisekmegfogalmazásában.

  5. Forrás.R. Grossman, C. Kamath, V. Kumar: Data Mining for Scientific and Engineering Applications Nagy adatállományokbányászata- Motivációk • A nem-nyilvánvalóinformációgyakran ,,rejtve” van azadatokban. • Azemberielemzőknekhetekbekerülmíghasznosinformációttalálnak. • Azadatoknagytöbbségétsohanemelemzik. Azadatrés Újlemezterület(TB) Elemzők (db)

  6. Mi azadatbányászat? • Sokdefiníció • Implicit (rejtett), korábbannemismertéspotenciálisanhasznosinformációnem-triviáliseszközökkelvalófeltárása. • Nagytömegűadatokfeltárásaéselemzéseféligautomatikusmódonazért,hogyértelmesmintázatokatfedezzünkfel. • A KDD-folyamatrésze Knowledge Discovery from Databases

  7. A KDD-folyamat • Adatrögzítés • Adattisztítás • Adatintegráció • Adatszelekció • Adattranszformáció • Adatbányászat • Kiértékelés • Tudásreprezentáció A 2.-5. lépéseket az ún. adattárház kialakításának is nevezik az IT-n belül.

  8. Mi (nem) adatbányászat? • Mi nem adatbányászat? • Egytelefonszámkikeresése a telefonkönyvből. • Az “Amazon” szóvalkapcsolatosinformá- cióklekérdezéseegyWebeskeresővel. (Google) • Mi adatbányászat? • Bizonyosnevekelterjedtebbekegyesterületekenaz USA-ban (O’Brien, O’Rurke, O’Reilly írnevekBostonban). • Csoportosítsuktartalmukalap- jánazokat a dokumentumokat, amelyeketegykeresővelkaptunk. (Pl. Amazonasesőerdő, Amazon kiadó)

  9. Azadatbányászateredete • Ötleteket, módszereketmerít a gépitanulás/MI, azalakfelismerés, a statisztikaésazadatbázisrendszerekterületéről. • A hagyományosmódszerekalkalmatlanoklehetnek köszönhetően • azadattömegnek, • a nagydimenziónak, • azadatokheterogénés elosztotttermészetének. Statisztika/Alakfelis- merés Gépitanulás/ MI Adat- bányászat Adatbázis-rendszerek

  10. Adatbányászatifeladatok • Előrejelzés - predikció (Felügyeltadatbányászat) • Egyesváltozóksegítségévelbecsüljük meg, jelezzükelőremásváltozókismeretlenvagyjövőbeliértékét. • Leírás - jellemzés (Nem-felügyeltadatbányászat) • Találjunkolyan, azemberekszámárainterpretálhatómintázatot, amelyjellemziazadatot. Forrás. Fayyad tsai:Advances in Knowledge Discovery and Data Mining, 1996

  11. Adatbányászatialapfeladatok • Osztályozás[Felügyelt] • Csoportosítás [Nem-felügyelt] • Társításiszabályokkeresése[Nem-felügyelt] • Szekvenciálismintázatokkeresése[Nem-felügyelt] • Regresszió[Felügyelt] • Eltéréskeresés[Felügyelt]

  12. Azosztályozásdefiníciója • Adottrekordokegyhalmaza (tanítóadatállomány) • Minden rekordattributumokértékeinekegyhalmazábóláll, azattributumokegyike (vagynémelyike) azún. osztályozóváltozó. • Találjunkolyanmodelltazosztályozóattributum-ra, amelymásattributumokfüggvényekéntállítjaelő. • Cél: korábbannemismertrekordokatkellolyanpontosanosztályozniahogyancsaklehetséges. • A tesztadatállomány a modellpontosságánakmeghatározásáraszolgál. Azadatállománytkétrészrebontjuk, a tanítónillesztjük a modellt, a tesztelőnpedigmegállapítjuk a hibáját.

  13. Teszt adatok Model Példaosztályozásra osztályozó kategórikus kategórikus folytonos Osztályozó tanítása Tanító adatok

  14. Osztályozás: 1. alkalmazás • Direktmarketing • Cél: a levelezésköltségcsökkentéseazonügyfelekhalmazánakmegcélzásávalakikvalószínűlegmegvásároljákazújtelefont. • Megközelítés: • Használjukfel a korábbanbevezetetthasonlótermékekkelkapcsolatosadatokat. • Ismerjük, hogymelyügyféldöntúgy, hogyvásárolésmelyikdöntmásképp. Ez a {vásárol, nemvásárol}döntésképeziazosztályozóattributumot. • Gyűjtsükösszeazösszesilyenügyféllelkapcsolatosinformá-ciót: demográfiaiadatok, életstílus, cégeselőtörténetstb. • Foglalkozás, lakhely, mennyitkeresstb. • Használjukmindezeninformációt mint input attributumokatarra, hogyegyosztályozómodellttanítsunk. Forrás. Berry & Linoff:Data Mining Techniques, 1997

  15. Osztályozás: 2. alkalmazás • Csaláskeresés • Cél: a csalásnaktűnőesetekelőrejelzésehitelkártyatranzakcióknál. • Megközelítés: • Használjukfel a hitelkártyatranzakciókatés a számlatulajdonossalkapcsolatosinformációkat. • Vásárláskoregyügyfélmitvesz, milyengyakranfizet • Címkézzük meg a múltbelitranzakciókat: csalás ill. jó. Ezalkotjaazosztályozóattributumot. • Tanítsunkegymodellt a tranzakciókegy halmazán. • Használjukezt a modelltarra, hogy a számlákhoztartozóhitelkártyatranzakcióknál a csalástelőre-jelezzük.

  16. Osztályozás: 3. alkalmazás • Ügyféllemorzsolódás • Cél: együgyfél elvesztésénekelőrejelzése(egyversenytárshoz való átpártolás) • Megközelítés: • Használjukazösszesmúltésjelenbeliügyfélhezkapcsolódótranzakciótattributumokkeresésére. • Milyengyakrantelefonál, holtelefonál, leginkábbmelyiknapszakbantelefonál, pénzügyihelyzete, családiállapotastb. • Címkézzük meg azügyfeleketaszerint, hogyhűségesek (lojálisak) vagyhűtlenek. • Találjunkmodellt a hűségesekleírására. Forrás. Berry & Linoff:Data Mining Techniques, 1997

  17. Osztályozás: 4. alkalmazás • Égboltfelmérés katalógizálása • Cél: égiobjektumokosztályainak (csillagvagygalaxis) előrejelzése, figyelembe véve még az aligláthatóakat is. (Forrás: Palomar Obszervatórium) • 3000 kép, 23,040 x 23,040 pixel képenként. • Megközelítés: • Szegmentáljuk a képeket. • Mérjük meg a képattributumait(features - jellemzők) - 40 db objektumonként. • Modellezzükazosztályokatezenjellemzőkalapján. • Sikertörténet: 16 újvörös-eltolódásúkvazárttaláltak, amely a legtávolabbiobjektumokegyike ésamelyetnehézmegtalálni! Forrás. Fayyad tsai:Advances in Knowledge Discovery and Data Mining, 1996

  18. Galaxisokosztályozása Forrás: http://aps.umn.edu • Attributumok: • Képi jellemzők • A vett fényhullámok karakterisztikája stb. Fiatal • Osztályozó változó: • Azalakzatállapotai Középkorú Idős • Adatnagyság: • 72 milliócsillag, 20 milliógalaxis • Objektum katalógus: 9 GB • Képadatbázis: 150 GB

  19. A csoportosításdefiníciója • Adottrekordok (pontok) egy halmaza, melyeketattributumokegyhalmazávalírunk le, továbbáadottközöttükegyhasonlóságimérték.Találjunkolyan csoportokat(klasztereket), amelyekre • azazonos csoportbanlévőrekordokminélhasonlóbbak, • akülönbözőcsoportokban lévőkpedigminélkevésbéhasonlóak. • Hasonlóságimértékek: • euklideszitávolság, ha azattributumokfolytonosak, • egyéb, afeladattól függőmérőszámok.

  20. A csoportosításszemléltetése Euklideszitávolságonalapulócsoportosítás a háromdimenzióstérben. A csoportokonbelüli távolságotminimalizáljuk A csoportok közötti távolságotmaximalizáljuk

  21. Csoportosítás: 1. alkalmazás • Piacszegmentáció • Cél: a piacfelosztásaazügyfelekdiszjunkhalmazok-ravalóbontásaútján, aholminden egyespotenciális célcsoportot,piaciszegmenstkülönböző marketing eszközökkeltervezünk elérni. • Megközelítés: • Gyűjtsükösszeazügyfeleketjellemzőattributumokat, amelyek pl. földrajziéséletstílushozkapcsolódóinformációk. • Keressükhasonlóügyfelekcsoportjait. • Mérjük meg a csoportosítás (szegmentálás) jóságátazügyfelekvásárlásimintáitvizsgálva.Az egycsoportbaesőügyfelekhasonlóanviselkednek-e szemben a máscsoportokbaesők különböző viselkedéséhezképest.

  22. Csoportosítás: 2. alkalmazás • Dokumentumokcsoportosítása • Cél: egymáshozhasonlódokumentumokcsoportjainakkeresése a bennükmegjelenőfontosabbkulcsszavakalapján. • Megközelítés: azonosítsuk a leggyakrabbanelőfordulókifejezéseketadokumentumokban. Definiáljunkegyhasonlóságimértéket a különbözőkifejezésekgyakoriságaalapján. Használjukezt a csoportosításra. • Haszon: információkinyerésre használhatjuk a csoportokat új dokumentumbeillesztésével vagykifejezések (kulcsszavak) keresésével a csoportosítottdokumentumokban.

  23. Dokumentumcsoportosításszemléltetése • Csoportosítandó: 3204 cikk a Los Angeles Timesból. • Hasonlóságimérték: mennyiközösszó van a dokumentumokban (előfeldolgozásután).

  24. S&P 500 részvényadatok • Minden nap megfigyeljük a részvényekmozgását. • Csoportosítandórekordok: Részvény-{FEL/LE} • Hasonlóságimérték: kétrekordhasonló, ha azőketleíróeseményekgyakranfordulnakelőazonosnapokon. • Társításiszabálythasználtunk a hasonlóságimérőszám meghatározására.

  25. Társításiszabályokdefiníciója • Adottrekordokegyhalmaza, amelytételek (termékek) egyösszességét tartalmazza. • Keressünkolyanösszefüggéseket, következtetéseket, amelyegyestételekelőfordulásátelőrejelzimástételekelőfordulásaalapján. Feltártszabályok: {Tej} --> {Kóla} {Pelenka, Tej} --> {Sör}

  26. Társításiszabályok: 1. alkalmazás • Marketing és reklám • Legyen a feltárt szabály {Édessütemény, … } --> {Burgonyaszirom} • Burgonyaszirommint következmény=>Arrahasznál-ható, hogy meghatározzuk mit tegyünk az eladás meggyorsításáért. • Édessüteménymint előzmény=>Arra használható, hogy lássuk mely termékekre van hatással az, ha a bolt felhagy az édessütemények forgalmazásával. • Édessüteménymint előzmény ésburgonyaszirommint következmény=> Arra használható, hogy lássuk mely termékeket kell az édessütemények mellett árul- ni, hogy előmozdítsuk a burgonyaszirom forgalmát!

  27. Társításiszabályok: 2. alkalmazás • Bevásárlóközpontok polckezelése • Cél: azon termékeknek a meghatározása, amelyeket elég sok vásárló vesz meg egyszerre. • Megközelítés: dolgozzuk fel az automatizált vásárlás során a vonalkód leolvasóval gyűjtött adatokat a termékek között kapcsolatokat keresve. • Egy klasszikus szabály: • Ha egy vásárló pelenkát és tejet vesz, akkor nagy eséllyel vesz sört is. • Ne lepődjünk meg ha a pelenkák után 6-os csomagban sört találunk!

  28. Társításiszabályok: 3. alkalmazás • Alkatrész gazdálkodás • Cél: egy háztartási berendezéseket javító vállalat szeretné előre látni a szükséges javítások fajtáit, hogy a megfelelő alkatrészekkel legyenek felszerelve a szervízautók és így a kiszállások számát csökkentsék. • Megközelítés: a különböző fogyasztói helyeken végzett korábbi javításokhoz szükséges eszközök és alkatrészek adatainak összegyűjtése és a közös előfordulások mintáinak feltárása.

  29. (A B) (C) (D E) (A B) (C) (D E) <= max rés >min rés <= ablak <= max fesztáv Szekvenciálismintázatokdefiníciója • Adottobjektumok egy halmaza úgy, hogy minden objektumhoz tartozikeseményeknek egy sorozata.Keressünk olyan szabályokat, amelyek a különböző események között minél erősebbszekvenciális függéseket jeleznek előre. • A szabályokat az első felfedezett mintázatok alakítják ki. A mintázatokban előforduló eseményeknek időbeli peremfeltételeknek kell eleget tenniük.

  30. Példák szekvenciálismintázatokra • Hibaüzenet a telekommunikációban: • (Átalakító_hibaTúlzott_vezeték_áram) (Egyenirányító_riadó) --> (Tűz_riadó) • Tranzakciók sorozata automatizált vásárlásnál: • Számítástechnikai könyvesbolt: (Bevezetés_a_Visual_C_be) (Bevezetés_C++_ba) --> (Perl_kezdőknek,Tcl_Tk_nyelv) • Sportruházat bolt: (Cipő) (Teniszütő, Teniszlabda) --> (Sport_dzseki)

  31. Regresszió • Jelezzük előreegy adott folytonos változó értékét más változók értékeit felhasználva, lineáris vagy nemlineáris függőséget feltételezve. • Alaposan vizsgálták a statisztika és a neurális hálók területén. • Példák: • Egy új termékből eladott mennyiség előrejelzése a reklámköltségek alapján. • A szélsebesség előrejelzése a hőmérséklet, a páratartalom, a légnyomás stb. segítségével. • A részvény-indexek idősorral való előrejelzése.

  32. Eltérés/Rendellenességkeresése • A normális viselkedéstől szignifikáns eltérések keresése. • Alkalmazások: • Hitelkártya csalások keresése • Hálózati behatolás érzékelése Egyetemi szinten átlagos hálózati forgalom esetén 100 millió kapcsolat jön létre naponta

  33. Kihívásokazadatbányászatban • Skálázhatóság • Dimenzióprobléma • Összetettésheterogénadatok • Nem-hagyományoselemzés • Adatminőség • Jogosultságkezeléséselosztottadatok • Adatvédelem • Adatfolyamok

More Related