350 likes | 604 Views
DUOMENŲ GAVYBA. Paskaita 3. Duomen ų gavybos etapai ir metodai. Kęstutis Žilinskas Šiaulių universitetas, 2013. Pagrindinė duomenų gavybos ypatybė.
E N D
DUOMENŲ GAVYBA Paskaita3.Duomenų gavybos etapai ir metodai Kęstutis Žilinskas Šiaulių universitetas, 2013
Pagrindinė duomenų gavybos ypatybė • Plataus matematinio aparato (nuo klasikinės statistinės analizės iki naujausių kibernetinių metodų) ir paskutinių informacinių technologijų pasiekimų derinimas. • Duomenų gavybos technologijoje harmoningai derinami griežtai formalūs metodai ir neformaliosios analizės metodai, kiekybinė ir kokybinė duomenų analizė.
Duomenų gavybos metodai ir algoritmai • Dirbtiniai neuroniniai tinklai. • Sprendimų medžiai. • Simbolinės taisyklės. • Artimiausio kaimyno ir k-artimiausio kaimyno metodai. • Atraminių vektorių metodas. • Bajeso tinklai. • Tiesinė regresija.
Duomenų gavybos metodai ir algoritmai • Koreliacinė-regresinė analizė. • Klasterinės analizės metodai. • Asociatyvių taisyklių paieškos metodai. • Evoliucinis programavimas. • Genetiniai algoritmai. • Vizualizavimo metodai. • ...
Metodas ir algoritmas • Metodas – norma arba taisyklė, nustatytas kelias arba būdas, teorinės, praktinės, pažintinės arba valdymo užduoties sprendimo būdas. • Algoritmas – tikslus nuoseklių veiksmų arba žingsnių aprašymas, pertvarkantis pradinius duomenis į ieškomą rezultatą.
Duomenų gavybos etapai • Dėsningumų išsiaiškinimas bei validavimas arba tikroviškumo patikrinimas (laisvoji paieška). • Rast dėsningumų pritaikymas nežinomų reikšmių numatymui (prognostinis modeliavimas). • Anomalijų dėsningumuose išaiškinimas ir paaiškinimas (išimčių analizė).
Laisvoji paieška (Discovery) • Vykdomas duomenų rinkinio tyrimas siekiant rasti paslėptus dėsningumus. • Išankstinės hipotezės apie dėsningumus nekuriamos. • Dėsningumas (law) – esminis ir pastoviai pasikartojantis ryšys, nusakantis proceso etapus ir formas, įvairių reikškinių ar procesų vyksmą.
Laisvoji paieška • Duomenų gavybos sistema šiame etape nustato šablonus. • Laisvosios paieškos veiksmai: • Sąlyginės logikos dėsningumų išaiškinimas (conditionallogic); • Asociatyvios logikos dėsningumų išaiškinimas (associations& affinities); • Trendų ir svyravimų išaiškinimas (trends&variations).
Pavyzdys • Tegul turime įdarbinimo agentūros duomenų bazę su duomenimis apie profesiją, stažą, amžių ir geidžiamą atlygį. • Analitikas savarankiškų užklausų pagalba gali gauti tokį apytikslį rezultatą: • 25-35 m. amžiaus specialisto vidutinis pageidaujamas atlygis 2400 Lt.
Pavyzdys • Laisvosios paieškos etape DG sistema pati ieško dėsningumų, tereikia nurodyti tikslą – kintamąjį. • Paieškos rezultatas – suformuotas loginių taisyklių „jei ..., tai ...“ rinkinys.
Pavyzdys • Gali būti rasti tokie dėsningumai: • Jei amžius < 20 m. ir geidžiamas atlygis > 1400 Lt, tai 75% atvejų žmogus ieško programuotojo darbo. • Jei amžius > 35 m. ir geidžiamas atlygis > 2400 Lt, tai 90% atvejų žmogus ieško vadovaujančio darbo. • Užduodant kitą paieškos kintamąjį gautume: • Jei žmogus ieško vadovaujančio darbo ir jo stažas > 15 m., tai 65% atvejų jo amžius > 35 m.
Laisvoji paieška • Paieškos veiksmai vykdomi: • Indukuojant sąlyginės logikos taisykles (klasifikavimo ir klasterizavimo uždaviniai – artimų ar panašių objektų grupių aprašymas); • Indukuojant asociatyvios logikos taisykles (asociacijos ir nuoseklumo uždaviniai – atitinkamos informacijos radimas); • Trendų ir svyravimų nustatymas (prognozavimo uždavinio pradinis etapas).
Laisvoji paieška • Čia turi būti vykdoma ir dėsningumų validacija – dėsningumų tikroviškumo patikrinimas su tais duomenimis, kurie nebuvo imtyje, t.y. nedalyvavo dėsningumo formavime. • Duomenų išskyrimas į apmokomuosius ir tikrinamuosius dažnai naudojamas neuroniniuose tinkluose ir sprendimų medžiuose.
Prognostinis modeliavimas (Predective Modeling) • Laisvosios paieškos etape gauti dėsningumai naudojami prognozavimui. • Prognostinio modeliavimo veiksmai: • Nežinomų reiškinių numatymas (outcomeprediction); • Procesų vyksmo prognozavimas (forecasting). • Prognostiniame modeliavime sprendžiami klasifikavimo ir prognozavimo uždaviniai.
Klasifikavimo uždaviniai • Pirmojo etapo rezultatai (indukuotos taisyklės) taikomi naujo objekto priskyrimui su tam tikru patikimumu kuriai nors žinomai klasei žinomų reikšmių pagrindu.
Prognozavimo uždaviniai • Pirmojo etapo rezultatai (nustatyti trendai ir svyravimai) taikomi ieškomo kintamojo (kintamųjų) nežinomų (praleistų arba būsimų) reikšmių numatymui.
Pavyzdžio tęsinys • Žinant, kad žmogus ieško vadovaujančio darbo ir jo stažas >15 m., tai su 65% tikimybe galima tikėtis, kad jo amžius > 35m. • Jei žmogaus amžius > 35m. ir geidžiamas atlygis > 2400 Lt, tai su 90% tikimybe galima tikėtis, kad jis ieško vadovaujančio darbo.
Laisvosios paieškos ir prognostinio modeliavimo palyginimas • Laisvoji paieška atranda bendruosius dėsningumus. • Ji logikos požiūriu induktyvi. • Dėsningumai formuojami nuo atskirojo prie bendrojo. • Rezultatas – gaunamas bendras žinojimas apie objektų klasę, pagrįstas klasės objektų dalies tyrimu.
Laisvosios paieškos ir prognostinio modeliavimo palyginimas • Taisyklė: • Jei amžius < 20 m. ir geidžiamas atlygis > 1400 Lt, tai 75% atvejų žmogus ieško programuotojo darbo. • Atskirojo pagrindu, t.y. informacijos apie kai kurias klasės savybes „amžius < 20 m.“ ir „geidžiamas atlygis > 1400 Lt“ pagrindu, darome bendrąją išvadą, „ žmogus ieško programuotojo darbo“.
Laisvosios paieškos ir prognostinio modeliavimo palyginimas • Prognostinis modeliavimas – deduktyvus. • Gauti dėsningumai formuojami nuo bendrojo prie atskirojo ir vienetinio. • Čia gaunamos naujos žinios apie objektą arba objektų grupę, nes žinomos: • Klasės, kurioms priklauso tiriami objektai; • Bendrosios taisyklės, veikiančios šioje objektų klasėje.
Laisvosios paieškos ir prognostinio modeliavimo palyginimas • Žinome, kad jei žmogus ieško vadovaujančio darbo ir jo stažas > 15 m., tai su 65% tikimybe jam > 35 m. • Bendrųjų taisyklių („tikslas – vadovaujantis darbas“ ir „stažas > 15 m.“)pagrindu darome atskirąją išvadą (apie vienetinį objektą) – „amžius – 35m.“.
Išimčių analizė (forensicanalysis) • Šiame etape analizuojamos išimtys arba anomalijos, išryškėjusios rastuose dėsningumuose. • Išimčių analizės veiksmas – nukrypimų išaiškinimas (deviationdetection). • Tikslas – būtina nustatyti dėsningumų, rastų laisvojoje paieškoje, normą.
Pavyzdžio tęsinys • Rasta taisyklė: • Jei žmogaus amžius > 35 m. ir geidžiamas atlygis > 2400 Lt, tai su 90% tikimybe galima tikėtis, kad jis ieško vadovaujančio darbo. • Klausimas – kaip elgtis su 10% likusių atvejų? • Galimi du variantai: • Egzistuoja loginis paaiškinimas, kurį galima suformuoti taisyklės pavidalu; • Tai pradinių duomenų klaida. Šiuo atveju reikalingas duomenų valymas.
Duomenų gavybos metodų klasifikavimas • DG metodus galima skirstyti pagal darbo su pradiniais duomenimis principą (duomenys išsaugojami arba distiliuojami prieš naudojimą): • Tiesioginis duomenų naudojimas arba duomenų išsaugojimas; • Formalizuotų dėsningumų išaiškinimas ir panaudojimas arba šablonų distiliavimas
Tiesioginis duomenų naudojimas arba duomenų išsaugojimas • Duomenys saugomi detaliu pavidalu ir tiesiogiai naudojami prognostinio modeliavimo ir/arba išimčių analizėje. • Šių metodų problema – labai didelių duomenų bazių analizės sudėtingumas. • Metodai: • Klasterinė analizė, artimiausio kaimyno ir k-artimiausio kaimyno metodai, analogijos metodai.
Formalizuotų dėsningumų išaiškinimas ir panaudojimas arba šablonų distiliavimas • Šioje technologijoje iš pradinių duomenų ištraukiamas vienas informacijos šablonas ir pertvarkomas į tam tikras formalias konstrukcijas, kurių pobūdis priklauso nuo metodo. • Šis procesas vykdomas laisvosios paieškos etape. • Kituose etapuose naudojami rezultatai kompaktiškesni už pačias duomenų bazes.
Formalizuotų dėsningumų išaiškinimas ir panaudojimas arba šablonų distiliavimas • Naudojami metodai: • Loginiai metodai; • Vizualizavimo metodai; • „Kros-tabuliacijos“ metodai; • Metodai, besiremiantys lygtimis.
Loginiai arba loginės indukcijos metodai • Užklausos ir jų analizės. • Simbolinės taisyklės. • Sprendimų medžiai. • Genetiniai algoritmai.
„Kros-tabuliacijos“ metodai • Agentai. • Bajeso tinklai. • Kros-tabuliacinėvizualizacija. • Šie metodai lengviausiai interpretuojami – rasti dėsningumai pateikiami labai akivaizdžia forma.
Metodai paremti matematinėmis lygtimis • Statistiniai metodai: • Koreliacinė-regresinė analizė; • Dinamikos sekų koreliacija; • Dinaminių sekų tendencijų tyrimas; • Harmoninė analizė. • Neuroniniai tinklai.
DG metodai gali būti skirstomi ir skirtingų matematinių modelių apmokymo būdų pagrindu: • Statistiniai metodai; • Kibernetiniai metodai.
Statistiniai metodai • Duomenų analizė ir aprašymas. • Ryšių analizė (koreliacinė, regresinė, faktorinė, dispersinė analizės). • Daugiamatė statistinė analizė (komponentinė, diskriminantinė, daugiamatė regresinė analizės). • Laiko sekų analizė (dinaminiai modeliai ir prognozavimas).
Kibernetiniai metodai • Dirbtiniai neuroniniai tinklai (atpažinimas, klasterizavimas, prognozė). • Evoliucinis programavimas (argumentų grupinės įtakos metodo algoritmai). • Genetiniai algoritmai (optimizavimas). • Neryškioji (nedvimatė) logika.
Kibernetiniai metodai • Asociatyvi atmintis (analogų, prototipų paieška). • Sprendimų medžiai. • Ekspertinių žinių apdorojimo sistemos.
DG metodus galima skirstyti pagal DG uždavinius: • Segmentavimo metodai (klasterizavimas, klasifikavimas), • Prognozavimo metodai. • arba • Aprašomųjų rezultatų gavimo metodai (šablonų radimas), • Prognozuojančiųjų rezultatų gavimo metodai.