1 / 45

Leonidas Sakalauskas Kęstutis Žilinskas Šiaulių universitetas, 2013

DUOMENŲ GAVYBA. Paskaita 1. Įvadas ( Duomenų gavybos tikslai , pritaikymai , uždaviniai , sistemos , metodai ). Leonidas Sakalauskas Kęstutis Žilinskas Šiaulių universitetas, 2013. Kas yra duomen ų gavyba?.

khalil
Download Presentation

Leonidas Sakalauskas Kęstutis Žilinskas Šiaulių universitetas, 2013

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DUOMENŲ GAVYBA Paskaita 1.Įvadas(Duomenųgavybostikslai, pritaikymai, uždaviniai, sistemos, metodai) Leonidas Sakalauskas Kęstutis Žilinskas Šiaulių universitetas, 2013

  2. Kasyraduomenų gavyba? • Pastaruoju metu, kai verslas vis labiau siekia efektyvumo ir pelno, kuriant duomenų bazes vis dažniau taikomos skaitmeninės informacijos apdorojimo priemonės. • Kartu atsirado ir šio aktyvumo šalutinis poveikis – kalnai surinktų duomenų. • Ir vis dažniau paaiškėja, kad šie kalnai pilni aukso.

  3. Kasyraduomenų gavyba? • Anksčiau kalnakasyboje aukso išgavimo procesą sudarė žemės ploto parinkimas bei daugkartinis žemės praplojimas arba sijojimas. • Kartais aukso ieškotojas rasdavo keletą vertingų grynuolių arba aptikdavo aukso gyslą. • Tačiau dažniausiai jis visiškai nieko nerasdavo ir persikeldavo į kitą „daug žadančią vietą“ arba aplamai mesdavo aukso paiešką, nuspręsdamas, kad tai tiesiog laiko švaistymas.

  4. Kasyraduomenų gavyba? • Šiandien naudojami nauji mokslo metodai bei specializuoti instrumentai, kas pavertė kalnakasybą tikslesne ir efektyvesne. • Duomenų gavyba atsirado panašiai. • Seni matematikų ir statistikų naudoti metodai reikalaudavo daug laiko sąnaudų, kol iš gausybės duomenų buvo išgaunama konstruktyvi ir naudinga informacija.

  5. Kasyraduomenų gavyba? • Šiandien programinės produkcijos rinkoje yra daugybė instrumentų, naudojančių įvairiausius metodus, kurie pavertė duomenų gavybą pelninga veikla, vis dažniau prieinama daugumai kompanijų (ar net įmonių).

  6. Kasyraduomenų gavyba? • Terminas duomenų gavyba (Data Mining) kilo iš dviejų sąvokų: • vertingos informacijos paieška didelėje duomenų (data) bazėje, • kalnų rūdos gavybos (mining). • Abu procesai reikalauja arba didelio žaliavinės medžiagos „prasijojimo“, arba ieškomų vertybių protingo tyrimo ir paieškos.

  7. Kasyraduomenų gavyba? • Terminas Data Mining turi keletą vertimų: • duomenų gavyba, • informacijos išgavimas, • intelektuali duomenų analizė, • dėsningumų paieškos priemonė, • duomenų išgavyba,

  8. Kasyraduomenų gavyba? • šablonų analizė, • žinių paieška duomenų bazėse, • duomenų informacinis apdorojimas, • duomenų praplovimas. • Terminas duomenų aptikimas duomenų bazėse (KnowledgeDiscoveryinDatabases) taip pat laikytinas duomenų gavybos sinonimu.

  9. Kasyraduomenų gavyba? • Terminas Data Miningatsirado 1978 m. ir tapo labai populiarus šiuolaikine prasme nuo devyniasdešimtųjų metų pirmosios pusės. • Anksčiau duomenų apdorojimu ir analize rūpinosi taikomoji statistika, kuri nagrinėjo iš esmės tik nedideles duomenų bazes. • Termino populiarumą patvirtina ir toks faktas, kad Google paieškos sistema terminui Data Mining pateikia daugiau nei 186 milijonus nuorodų.

  10. Kasyraduomenų gavyba? • Duomenų gavyba – tarpdalykinė sritis, iškilusi ir besivystanti keleto mokslų bazėje: • Duomenų bazių teorija; • Statistika; • Dirbtinis intelektas; • Mašininis mokymas; • Algoritmų teorija; • Vizualicacija; • Vaizdų atpažinimas.

  11. Statistika • Statistika – mokslas apie duomenų surinkimo, jų apdorojimo ir analizės metodus, siekiant išgauti nagrinėjamą reiškinį apibūdinančius dėsningumus. • Šie metodai apima eksperimento planavimą, duomenų surinkimą, jų tinkamą pateikimą ir apibendrinimą bei analizę, išvadų gavimą šių duomenų pagrindu. • Statistikos objektas – duomenys, gaunami stebėjimuose arba eksperimentuose.

  12. Mašininis mokymas • Vieningo mašininio mokymo termino kol kas nėra. • Mašininis mokymas – naujų žinių gavimo programoje procesas. • Mašininis mokymas – mokslas, nagrinėjantis kompiuterinius algoritmus, automatiškai gerinančius save darbo metu. • Populiariausias mašininio mokymo algoritmas šiuo metu yra neuroniniai tinklai.

  13. Dirbtinis intelektas • Dirbtinis intelektas – mokslo kryptis, kurioje keliami aparatinio arba programinio žmogaus intelektualinės veiklos modeliavimo uždaviniai. • Terminas intelektas nusako protą, išmonę, žmogaus mąstymo gebėjimus. • Dirbtinis intelektas (AI, ArtificialIntelligence) nusakomas, kaip automatinių sistemų savybė atlikti atskiras žmogaus intelekto funkcijas, kurios tradiciškai būdingos tik žmogui.

  14. Galima palyginti anksčiau apibūdintas sritis • Statistika: • Daugiau nei duomenų gavyba remiasi teorijomis; • Labiau domisi hipotezių tikrinimu. • Mašininis mokymas: • Daugiau euristinis; • Labiau domisi apmokymo agentų darbo gerinimu.

  15. Duomenų gavybos atsiradimo prielaidos • Duomenų bazių aparatinio ir programinio aprūpinimo tobulėjimas; • Duomenų užrašymo ir saugojimo technologijų tobulėjimas; • Didelio kiekio retrospektyvių duomenų susikaupimas; • Informacijos apdorojimo algoritmų tobulėjimas.

  16. Duomenų gavyba: • Integruoja teoriją ir euristikas, • Domisi vieningu duomenų analizės procesu (duomenų gryninimas, mokymas, rezultatų integravimas ir vizualizacija). • Duomenų gavyba tampriai susijusi su duomenų bazių technologijomis ir duomenų sąvoka.

  17. Kasyraduomenų gavyba? • Duomenų gavyba – sprendimų priėmimo procesas, pagrįstas paslėptų dėsningumų (informacijos šablonų) paieška duomenyse.

  18. Kasyraduomenų gavyba? Pateikiame "Gartner Group" apibrėžimą: • Duomenų gavyba yra prasmingų šablonų (patterns), dėsningumų, modelių ir tendencijų radimo procesas dideliuose informacijos kiekiuose, pasinaudojant modelių atpažinimo, statistiniais bei matematiniais metodais.

  19. Kasyraduomenų gavyba? Dažnai naudojamas toks DG apibrėžimas (G. Piatecki-Shapiro). Duomenų gavyba yra “žalių”, neapdorotų duomenų (raw data) tyrinėjimo procesas žinioms nustayti, kurios yra • naujos, prieš tai nežinotos; • netrivialios; • praktiškai naudingos; • interpretuotinos; • būtinos sprendimams priimti pasirinktoje veiklos srityje.

  20. Neakivaizdžios (paslėptos) – neaptinkamos standartiniais informacijos apdorojimo metodais arba ekspertiniu būdu. • Objektyvios – būtinai atitinkančios tikrovę, skirtingai nuo ekspertų išvadų, kurios visada subjektyvios.

  21. Kasyraduomenų gavyba? • Duomenų gavyba – duomenų išskyrimo iš neaiškios ir/arba nestruktūrizuotos informacijos procesas bei jų pateikimas praktiniam pritaikymui naudingu pavidalu. • Duomenų gavyba – didelių duomenų kiekių išskyrimas, tyrimas ir modeliavimas, siekiant rasti nežinomas struktūras (patterns), padedančias turėti pranašumą versle. • Duomenų gavyba – procesas, kurio tikslas aptikti didelio saugomų duomenų kiekio naujas ryškias koreliacijas, šablonus ir tendencijas, naudojant šablonų atpažinimo metodikas bei taikant statistinius ir matematinius metodus.

  22. Kasyraduomenų gavyba? • Duomenų gavybos technologijos pagrindas šablonų koncepcija. Šablonai – dėsningumai, būdingi duomenų imtims, kurie gali būti pateikti žmogui suprantama forma. • Dėsningumų paieškos tikslas – duomenų pateikimas ieškomus procesus atspindinčiu pavidalu bei prognozavimo modelių kūrimas.

  23. Kasyraduomenų gavyba? • „Mining“ reiškia „naudingų iškasenų paieška“, o dėsningumų paieška milžiniškuose duomenų bazių duomenų kiekiuose tikrai analogiška šiam procesui.

  24. DG pritaikymai Šiuolaikinė duomenų analizė pasižymi tokia specifika: • duomenų apimtis yra beveik neaprėžta; • duomenys yra įvairialyčiai (kiekybiniai, tekstiniai, video, audio, ...); • tačiau analizės išvados turi būti konkrečios ir aiškios; • analizės priemonės turi būti paprastos naudoti.

  25. DG pritaikymai DG taikymo sritys apima dvi kryptis: • verslo pritaikymai, • unikalūs tyrimai (bioinžinerija, genetika, socialinės sistemos, ir pan.).

  26. Pritaikymai komercijoje • vartotojojo „krepšelio“ tyrimas (strategijai, prekių planavimui ir pan.), skirtas paslaugų derinių, kurias vartotojai linkę įsigyti kartu, paieškai; • laiko nuoseklumų tyrimas padeda prekeiviams priimti sprendimus apie atsargų kaupimą; • prognozavimas leidžia prekeiviams nustatyti skirtingų vartotojų grupių poreikius • rinkos tyrimas DG metodais leidžia efektyviau organizuoti reklamos kampanijas, kryžminius pardavimus ir pan.

  27. Bankai, kredito įstaigos • sukčiavimų nustatymas (tiriant įvykusių sukčiavimų šablonus); • klientų klasifikavimas (tokiu būdu marketingo politika tampa labiau tiksli ir rezultatyvi); • klientų būklės prognozė (leidžia prognozuoti klientų vertę); • pinigų plovimo prevencija.

  28. Telekomunikacijos • iškvietimų analizė (skambučių analizė) leidžia nustatyti klientų su panašiais poreikiais kategorijas; • vartotojų lojalumo didinimas – klientų nustatymas, kurie ir toliau naudosis kompanijos paslaugomis; • nemokumo prognozavimas; • tinklo apkrovos tyrimas.

  29. Duomenų gavyba pramonėje • produkcijos išeigos didinimas; • sunaudojamų išteklių mažinimas; • technologinių procesų gedimų aptikimas; • rinkos tyrimas.

  30. Intelektinis interneto naršymas • tinklapių turinio tyrimas; • tinklo struktūros tyrimas; • naršymo šablonų tyrimas.

  31. Draudimas • sukčiavimų analizė (tiriant įvykusių sukčiavimų šablonus); • rizikos analizė (nustatant tam tikrus panašumus tarp klientų grupių).

  32. Nuotolinis mokymas • individualių mokymo stilių nustatymas ir tyrimas • personalizuotas mokymas; • plagiato aptikimas; • mokymosi diagramų tyrimas; • mokymosi krepšelių tyrimas; • mokymosi tinklų apkrovos tyrimas

  33. Kompiuterių tinklai • intruzijų tyrimas; • spamo tyrimas ir prevencija; • apkrovos tyrimas.

  34. Medicina, genetika, bioinžinerija • šablonų ieškojimas tam tikrų susirgimų srityje (vaistų pirkimų tyrimai,….); • genetiniai tyrimai.

  35. Duomenų gavybos uždaviniai Duomenų gavyba apima dvi plačias tyrimų uždavinių kategorijas: • Priklausomybių tyrimo duomenų gavyba • Prognozuojanti duomenų gavyba

  36. Priklausomybių tyrimas • grupavimas, • sąryšių (susietumų) tyrimas, • dažnių tyrimas.

  37. Prognozuojanti duomenų gavyba • klasifikavimas • reikšmių prognozavimas • laiko nuoseklumų prognozavimas

  38. DG uždaviniai DG uždaviniui išspręsti taikomi keli metodai iš eilės ar net sudėtingi jų deriniai. Duomenų gavybos algoritmai pasižymi įvairove. Nė vienas jų nėra universalus ar nepriekaištingas. Parenkant algorimus atsižvelgiama į jų operacinį ir loginį sudėtingumą, sunaudojamą tyrimui kompiuterio laiką bei atmintį, tyrimo išvadų patikimumą.

  39. Duomenų gavybos metodai Neuroniniai tinklai (tiesiaeigio sklidimo, Saimono tinklai) Klasteriavimas Statistinis klasifikavimas Atraminių vektorių regresija ir klasifikavimas Daugialypė ir logistinė regresija Loginių taisyklių paieška Sprendimų medžiai Esminių kintamųjų ir faktorių tyrimas Evoliuciniai ir genetiniai algoritmai Duomenų vaizdavimas.

  40. Duomenų gavybos sistemos Išskirkiamos tokios DG sistemų klases: 1) Dalykinės analizės sistemos 2) Statistiniai programų paketai (SPSS, SAS, STATISTICA) 3) DG paketai

  41. Dalykinės srities analizės programos Remiasitosdalykinėssritiesempiriniaisduomenimis – pvz., statybininkaižinoviskąapiebetoną, medikaiapieligasirvaistus, ir pan.). Jos dažnainaudojapaprastąstatistinįaparatą, bet maksimaliaiįvertinasusiklosčiusią srityje specifiką. Šiossistemosgalibūtilabaiįvairios. Pvz., tokiossistemosdažnainaudojamosfinansiniųrinkųtyrimuose. Specializuotarinkosanalizės sistema yrasudarytaišfinansiniųindeksųsekųdinamikosanalizės ir investicijųportfelio planavimometodų.

  42. Statistinės analizės paketai (SPSS, StatGraphics, SAS, STATISTICA, R Statisticalpackage) Beveikvisųžinomųstatistiniųpaketųpaskutinėseversijosekartusutradiciniaisstatistiniaismetodaisįtraukiamiir DG metodai. Tačiaupagrindinisdėmesysjuoseskiriamasklasikiniamsmetodams – koreliacinei, regresinei, faktorineianalizeiir pan. Tokiųsistemųtrūkumulaikomaspecialausvartotojoparuošimobūtinybė.

  43. Duomenų gavybos paketai Daugelisprograminėsįrangoskorporacijųkuriairplatinaatskirusproduktus, skirtusDB duomenųgavybai. Lietuvojetokiąįrangaplatina Oracle, IBM DM Technology, SONEX, irk t.

  44. Išvada Duomenųgavybostaikymasnesibaigia“teisingoalgoritmo”parinkimu. Čiasvarbūsvisietapai: problemosidentifikavimas, kokybiškiduomenys, kuriųpagrindu bus atliekamaanalizė, modelioparinkimasirrealizavimas, gautųrezultatųinterpretavimas. Šiojesrityjeypačreikalingasvartotojųišprusimas, nesnėvienasistemanegalitapti "stebuklingumygtuku", išspręsiančiu visas problemas.

  45. Literatūra M. Dunham. Data Mining. Introduction and Advanced topics L.Sakalauskas. Duomenų gavyba.

More Related