340 likes | 501 Views
Adatbányászat : Bevezetés. 1. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton. Logók és támogatás.
E N D
Adatbányászat: Bevezetés 1. fejezet Tan, Steinbach, Kumar Bevezetésazadatbányászatba előadás-fóliák fordította IspányMárton
Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046 számú Kelet-magyarországi Informatika Tananyag Tárház projekt keretében készült. A tananyagfejlesztés az Európai Unió támogatásával és az Európai Szociális Alap társfinanszírozásával valósult meg.
Miértbányásszunk? Üzletiszempontok • Rengetegadatgyűlikösszeésraktározódik el adattárházakban: • webadatok, e-kereskedelem, • vásárlásokáruházakbanésélelmiszerboltokban, • bank- éshitelkártyatranzakciók. • A számítógépekegyreolcsóbbak,nagyobbteljesítményűek. • A versenyerősödik • Nyújtsunkjobb, testreszabottabbszolgáltatást a versenyelőnyért(pl. CRM-ben).
Miértbányásszunk? Tudományosszempontok • Óriásisebességgelgyűlnekéstárolódnakazadatok (GB/óra) • távérzékelőkműholdakon • távcsövekpásztázzákazeget • microarray mérések a génkifejeződésekre • szimulációk TB-nyiadatotgenerálnak • Hagyományosmódszerekalkalmatlansága • Azadatbányászatsegíthet a tudósoknak • adatokosztályozásábanésszegmentálásában, • hipotézisekmegfogalmazásában.
Forrás.R. Grossman, C. Kamath, V. Kumar: Data Mining for Scientific and Engineering Applications Nagy adatállományokbányászata- Motivációk • A nem-nyilvánvalóinformációgyakran ,,rejtve” van azadatokban. • Azemberielemzőknekhetekbekerülmíghasznosinformációttalálnak. • Azadatoknagytöbbségétsohanemelemzik. Azadatrés Újlemezterület(TB) Elemzők (db)
Mi azadatbányászat? • Sokdefiníció • Implicit (rejtett), korábbannemismertéspotenciálisanhasznosinformációnem-triviáliseszközökkelvalófeltárása. • Nagytömegűadatokfeltárásaéselemzéseféligautomatikusmódonazért,hogyértelmesmintázatokatfedezzünkfel. • A KDD-folyamatrésze Knowledge Discovery from Databases
A KDD-folyamat • Adatrögzítés • Adattisztítás • Adatintegráció • Adatszelekció • Adattranszformáció • Adatbányászat • Kiértékelés • Tudásreprezentáció A 2.-5. lépéseket az ún. adattárház kialakításának is nevezik az IT-n belül.
Mi (nem) adatbányászat? • Mi nem adatbányászat? • Egytelefonszámkikeresése a telefonkönyvből. • Az “Amazon” szóvalkapcsolatosinformá- cióklekérdezéseegyWebeskeresővel. (Google) • Mi adatbányászat? • Bizonyosnevekelterjedtebbekegyesterületekenaz USA-ban (O’Brien, O’Rurke, O’Reilly írnevekBostonban). • Csoportosítsuktartalmukalap- jánazokat a dokumentumokat, amelyeketegykeresővelkaptunk. (Pl. Amazonasesőerdő, Amazon kiadó)
Azadatbányászateredete • Ötleteket, módszereketmerít a gépitanulás/MI, azalakfelismerés, a statisztikaésazadatbázisrendszerekterületéről. • A hagyományosmódszerekalkalmatlanoklehetnek köszönhetően • azadattömegnek, • a nagydimenziónak, • azadatokheterogénés elosztotttermészetének. Statisztika/Alakfelis- merés Gépitanulás/ MI Adat- bányászat Adatbázis-rendszerek
Adatbányászatifeladatok • Előrejelzés - predikció (Felügyeltadatbányászat) • Egyesváltozóksegítségévelbecsüljük meg, jelezzükelőremásváltozókismeretlenvagyjövőbeliértékét. • Leírás - jellemzés (Nem-felügyeltadatbányászat) • Találjunkolyan, azemberekszámárainterpretálhatómintázatot, amelyjellemziazadatot. Forrás. Fayyad tsai:Advances in Knowledge Discovery and Data Mining, 1996
Adatbányászatialapfeladatok • Osztályozás[Felügyelt] • Csoportosítás [Nem-felügyelt] • Társításiszabályokkeresése[Nem-felügyelt] • Szekvenciálismintázatokkeresése[Nem-felügyelt] • Regresszió[Felügyelt] • Eltéréskeresés[Felügyelt]
Azosztályozásdefiníciója • Adottrekordokegyhalmaza (tanítóadatállomány) • Minden rekordattributumokértékeinekegyhalmazábóláll, azattributumokegyike (vagynémelyike) azún. osztályozóváltozó. • Találjunkolyanmodelltazosztályozóattributum-ra, amelymásattributumokfüggvényekéntállítjaelő. • Cél: korábbannemismertrekordokatkellolyanpontosanosztályozniahogyancsaklehetséges. • A tesztadatállomány a modellpontosságánakmeghatározásáraszolgál. Azadatállománytkétrészrebontjuk, a tanítónillesztjük a modellt, a tesztelőnpedigmegállapítjuk a hibáját.
Teszt adatok Model Példaosztályozásra osztályozó kategórikus kategórikus folytonos Osztályozó tanítása Tanító adatok
Osztályozás: 1. alkalmazás • Direktmarketing • Cél: a levelezésköltségcsökkentéseazonügyfelekhalmazánakmegcélzásávalakikvalószínűlegmegvásároljákazújtelefont. • Megközelítés: • Használjukfel a korábbanbevezetetthasonlótermékekkelkapcsolatosadatokat. • Ismerjük, hogymelyügyféldöntúgy, hogyvásárolésmelyikdöntmásképp. Ez a {vásárol, nemvásárol}döntésképeziazosztályozóattributumot. • Gyűjtsükösszeazösszesilyenügyféllelkapcsolatosinformá-ciót: demográfiaiadatok, életstílus, cégeselőtörténetstb. • Foglalkozás, lakhely, mennyitkeresstb. • Használjukmindezeninformációt mint input attributumokatarra, hogyegyosztályozómodellttanítsunk. Forrás. Berry & Linoff:Data Mining Techniques, 1997
Osztályozás: 2. alkalmazás • Csaláskeresés • Cél: a csalásnaktűnőesetekelőrejelzésehitelkártyatranzakcióknál. • Megközelítés: • Használjukfel a hitelkártyatranzakciókatés a számlatulajdonossalkapcsolatosinformációkat. • Vásárláskoregyügyfélmitvesz, milyengyakranfizet • Címkézzük meg a múltbelitranzakciókat: csalás ill. jó. Ezalkotjaazosztályozóattributumot. • Tanítsunkegymodellt a tranzakciókegy halmazán. • Használjukezt a modelltarra, hogy a számlákhoztartozóhitelkártyatranzakcióknál a csalástelőre-jelezzük.
Osztályozás: 3. alkalmazás • Ügyféllemorzsolódás • Cél: együgyfél elvesztésénekelőrejelzése(egyversenytárshoz való átpártolás) • Megközelítés: • Használjukazösszesmúltésjelenbeliügyfélhezkapcsolódótranzakciótattributumokkeresésére. • Milyengyakrantelefonál, holtelefonál, leginkábbmelyiknapszakbantelefonál, pénzügyihelyzete, családiállapotastb. • Címkézzük meg azügyfeleketaszerint, hogyhűségesek (lojálisak) vagyhűtlenek. • Találjunkmodellt a hűségesekleírására. Forrás. Berry & Linoff:Data Mining Techniques, 1997
Osztályozás: 4. alkalmazás • Égboltfelmérés katalógizálása • Cél: égiobjektumokosztályainak (csillagvagygalaxis) előrejelzése, figyelembe véve még az aligláthatóakat is. (Forrás: Palomar Obszervatórium) • 3000 kép, 23,040 x 23,040 pixel képenként. • Megközelítés: • Szegmentáljuk a képeket. • Mérjük meg a képattributumait(features - jellemzők) - 40 db objektumonként. • Modellezzükazosztályokatezenjellemzőkalapján. • Sikertörténet: 16 újvörös-eltolódásúkvazárttaláltak, amely a legtávolabbiobjektumokegyike ésamelyetnehézmegtalálni! Forrás. Fayyad tsai:Advances in Knowledge Discovery and Data Mining, 1996
Galaxisokosztályozása Forrás: http://aps.umn.edu • Attributumok: • Képi jellemzők • A vett fényhullámok karakterisztikája stb. Fiatal • Osztályozó változó: • Azalakzatállapotai Középkorú Idős • Adatnagyság: • 72 milliócsillag, 20 milliógalaxis • Objektum katalógus: 9 GB • Képadatbázis: 150 GB
A csoportosításdefiníciója • Adottrekordok (pontok) egy halmaza, melyeketattributumokegyhalmazávalírunk le, továbbáadottközöttükegyhasonlóságimérték.Találjunkolyan csoportokat(klasztereket), amelyekre • azazonos csoportbanlévőrekordokminélhasonlóbbak, • akülönbözőcsoportokban lévőkpedigminélkevésbéhasonlóak. • Hasonlóságimértékek: • euklideszitávolság, ha azattributumokfolytonosak, • egyéb, afeladattól függőmérőszámok.
A csoportosításszemléltetése Euklideszitávolságonalapulócsoportosítás a háromdimenzióstérben. A csoportokonbelüli távolságotminimalizáljuk A csoportok közötti távolságotmaximalizáljuk
Csoportosítás: 1. alkalmazás • Piacszegmentáció • Cél: a piacfelosztásaazügyfelekdiszjunkhalmazok-ravalóbontásaútján, aholminden egyespotenciális célcsoportot,piaciszegmenstkülönböző marketing eszközökkeltervezünk elérni. • Megközelítés: • Gyűjtsükösszeazügyfeleketjellemzőattributumokat, amelyek pl. földrajziéséletstílushozkapcsolódóinformációk. • Keressükhasonlóügyfelekcsoportjait. • Mérjük meg a csoportosítás (szegmentálás) jóságátazügyfelekvásárlásimintáitvizsgálva.Az egycsoportbaesőügyfelekhasonlóanviselkednek-e szemben a máscsoportokbaesők különböző viselkedéséhezképest.
Csoportosítás: 2. alkalmazás • Dokumentumokcsoportosítása • Cél: egymáshozhasonlódokumentumokcsoportjainakkeresése a bennükmegjelenőfontosabbkulcsszavakalapján. • Megközelítés: azonosítsuk a leggyakrabbanelőfordulókifejezéseketadokumentumokban. Definiáljunkegyhasonlóságimértéket a különbözőkifejezésekgyakoriságaalapján. Használjukezt a csoportosításra. • Haszon: információkinyerésre használhatjuk a csoportokat új dokumentumbeillesztésével vagykifejezések (kulcsszavak) keresésével a csoportosítottdokumentumokban.
Dokumentumcsoportosításszemléltetése • Csoportosítandó: 3204 cikk a Los Angeles Timesból. • Hasonlóságimérték: mennyiközösszó van a dokumentumokban (előfeldolgozásután).
S&P 500 részvényadatok • Minden nap megfigyeljük a részvényekmozgását. • Csoportosítandórekordok: Részvény-{FEL/LE} • Hasonlóságimérték: kétrekordhasonló, ha azőketleíróeseményekgyakranfordulnakelőazonosnapokon. • Társításiszabálythasználtunk a hasonlóságimérőszám meghatározására.
Társításiszabályokdefiníciója • Adottrekordokegyhalmaza, amelytételek (termékek) egyösszességét tartalmazza. • Keressünkolyanösszefüggéseket, következtetéseket, amelyegyestételekelőfordulásátelőrejelzimástételekelőfordulásaalapján. Feltártszabályok: {Tej} --> {Kóla} {Pelenka, Tej} --> {Sör}
Társításiszabályok: 1. alkalmazás • Marketing és reklám • Legyen a feltárt szabály {Édessütemény, … } --> {Burgonyaszirom} • Burgonyaszirommint következmény=>Arrahasznál-ható, hogy meghatározzuk mit tegyünk az eladás meggyorsításáért. • Édessüteménymint előzmény=>Arra használható, hogy lássuk mely termékekre van hatással az, ha a bolt felhagy az édessütemények forgalmazásával. • Édessüteménymint előzmény ésburgonyaszirommint következmény=> Arra használható, hogy lássuk mely termékeket kell az édessütemények mellett árul- ni, hogy előmozdítsuk a burgonyaszirom forgalmát!
Társításiszabályok: 2. alkalmazás • Bevásárlóközpontok polckezelése • Cél: azon termékeknek a meghatározása, amelyeket elég sok vásárló vesz meg egyszerre. • Megközelítés: dolgozzuk fel az automatizált vásárlás során a vonalkód leolvasóval gyűjtött adatokat a termékek között kapcsolatokat keresve. • Egy klasszikus szabály: • Ha egy vásárló pelenkát és tejet vesz, akkor nagy eséllyel vesz sört is. • Ne lepődjünk meg ha a pelenkák után 6-os csomagban sört találunk!
Társításiszabályok: 3. alkalmazás • Alkatrész gazdálkodás • Cél: egy háztartási berendezéseket javító vállalat szeretné előre látni a szükséges javítások fajtáit, hogy a megfelelő alkatrészekkel legyenek felszerelve a szervízautók és így a kiszállások számát csökkentsék. • Megközelítés: a különböző fogyasztói helyeken végzett korábbi javításokhoz szükséges eszközök és alkatrészek adatainak összegyűjtése és a közös előfordulások mintáinak feltárása.
(A B) (C) (D E) (A B) (C) (D E) <= max rés >min rés <= ablak <= max fesztáv Szekvenciálismintázatokdefiníciója • Adottobjektumok egy halmaza úgy, hogy minden objektumhoz tartozikeseményeknek egy sorozata.Keressünk olyan szabályokat, amelyek a különböző események között minél erősebbszekvenciális függéseket jeleznek előre. • A szabályokat az első felfedezett mintázatok alakítják ki. A mintázatokban előforduló eseményeknek időbeli peremfeltételeknek kell eleget tenniük.
Példák szekvenciálismintázatokra • Hibaüzenet a telekommunikációban: • (Átalakító_hibaTúlzott_vezeték_áram) (Egyenirányító_riadó) --> (Tűz_riadó) • Tranzakciók sorozata automatizált vásárlásnál: • Számítástechnikai könyvesbolt: (Bevezetés_a_Visual_C_be) (Bevezetés_C++_ba) --> (Perl_kezdőknek,Tcl_Tk_nyelv) • Sportruházat bolt: (Cipő) (Teniszütő, Teniszlabda) --> (Sport_dzseki)
Regresszió • Jelezzük előreegy adott folytonos változó értékét más változók értékeit felhasználva, lineáris vagy nemlineáris függőséget feltételezve. • Alaposan vizsgálták a statisztika és a neurális hálók területén. • Példák: • Egy új termékből eladott mennyiség előrejelzése a reklámköltségek alapján. • A szélsebesség előrejelzése a hőmérséklet, a páratartalom, a légnyomás stb. segítségével. • A részvény-indexek idősorral való előrejelzése.
Eltérés/Rendellenességkeresése • A normális viselkedéstől szignifikáns eltérések keresése. • Alkalmazások: • Hitelkártya csalások keresése • Hálózati behatolás érzékelése Egyetemi szinten átlagos hálózati forgalom esetén 100 millió kapcsolat jön létre naponta
Kihívásokazadatbányászatban • Skálázhatóság • Dimenzióprobléma • Összetettésheterogénadatok • Nem-hagyományoselemzés • Adatminőség • Jogosultságkezeléséselosztottadatok • Adatvédelem • Adatfolyamok