1 / 25

Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 1. Įvadas ( Duomenų gavybos tikslai , pritaikymai , uždaviniai , sistemos , metodai ). Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Kas yra duomen ų gavyba ?. Pateikiame "Gartner Group" apibrėžimą:

Download Presentation

Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DUOMENŲ GAVYBOS TECHNOLOGIJOS Paskaita 1.Įvadas(Duomenųgavybostikslai, pritaikymai, uždaviniai, sistemos, metodai) Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>

  2. Kas yra duomenų gavyba ? Pateikiame "Gartner Group" apibrėžimą: • Duomenų gavyba yra prasmingų šablonų (patterns), dėsningumų, modelių ir tendencijų radimo procesas dideliuose informacijos kiekiuose, pasinaudojant modelių atpažinimo, statistiniais bei matematiniais metodais.

  3. Kas yra duomenų gavyba ? Dažnainaudojamastoks DG apibrėžimas (G. Piatecki-Shapiro). Duomenųgavybayra “žalių”, neapdorotųduomenų (raw data) tyrinėjimoprocesasžiniomsnustayti, kuriosyra • naujos, prieš tai nežinotos; • netrivialios; • praktiškainaudingos; • interpretuotinos; • būtinossprendimamspriimtipasirinktojeveiklossrityje.

  4. DG pritaikymai Šiuolaikinė duomenų analizė pasižymi tokia specifika: • duomenų apimtis yra beveik neaprėžta; • duomenys yra įvairialyčiai (kiekybiniai, tekstiniai, video, audio, ...); • tačiau analizės išvados turi būti konkrečios ir aiškios; • analizės priemonės turi būti paprastos naudoti.

  5. DG pritaikymai DG taikymo sritys apima dvi kryptis: • verslo pritaikymai, • unikalūs tyrimai (bioinžinerija, genetika, socialinės sistemos, ir pan.).

  6. Pritaikymai komercijoje • vartotojojo „krepšelio“ tyrimas (strategijai, prekių planavimui ir pan.), skirtas paslaugų derinių, kurias vartotojai linkę įsigyti kartu, paieškai; • laiko nuoseklumų tyrimas padeda prekeiviams priimti sprendimus apie atsargų kaupimą; • prognozavimas leidžia prekeiviams nustatyti skirtingų vartotojų grupių poreikius • rinkos tyrimas DG metodais leidžia efektyviau organizuoti reklamos kampanijas, kryžminius pardavimus ir pan.

  7. Bankai, kredito įstaigos • sukčiavimų nustatymas (tiriant įvykusių sukčiavimų šablonus); • klientų klasifikavimas (tokiu būdu marketingo politika tampa labiau tiksli ir rezultatyvi); • klientų būklės prognozė (leidžia prognozuoti klientų vertę); • pinigų plovimo prevencija.

  8. Telekomunikacijos • iškvietimų analizė (skambučių analizė) leidžia nustatyti klientų su panašiais poreikiais kategorijas; • vartotojų lojalumo didinimas – klientų nustatymas, kurie ir toliau naudosis kompanijos paslaugomis; • nemokumo prognozavimas; • tinklo apkrovos tyrimas.

  9. Duomenų gavyba pramonėje • produkcijos išeigos didinimas; • sunaudojamų išteklių mažinimas; • technologinių procesų gedimų aptikimas; • rinkos tyrimas.

  10. Intelektinis interneto naršymas • tinklapių turinio tyrimas; • tinklo struktūros tyrimas; • naršymo šablonų tyrimas.

  11. Draudimas • sukčiavimų analizė (tiriant įvykusių sukčiavimų šablonus); • rizikos analizė (nustatant tam tikrus panašumus tarp klientų grupių).

  12. Nuotolinis mokymas • individualių mokymo stilių nustatymas ir tyrimas • personalizuotas mokymas; • plagiato aptikimas; • mokymosi diagramų tyrimas; • mokymosi krepšelių tyrimas; • mokymosi tinklų apkrovos tyrimas

  13. Kompiuterių tinklai • intruzijų tyrimas; • spamo tyrimas ir prevencija; • apkrovos tyrimas.

  14. Medicina, genetika, bioinžinerija • šablonų ieškojimas tam tikrų susirgimų srityje (vaistų pirkimų tyrimai,….); • genetiniai tyrimai.

  15. Duomenų gavybos uždaviniai Duomenų gavyba apima dvi plačias tyrimų uždavinių kategorijas: • Priklausomybių tyrimo duomenų gavyba • Prognozuojanti duomenų gavyba

  16. Priklausomybių tyrimas • grupavimas, • sąryšių (susietumų) tyrimas, • dažnių tyrimas.

  17. Prognozuojanti duomenų gavyba • klasifikavimas • reikšmių prognozavimas • laiko nuoseklumų prognozavimas

  18. DG uždaviniai DG uždaviniui išspręsti taikomi keli metodai iš eilės ar net sudėtingi jų deriniai. Duomenų gavybos algoritmai pasižymi įvairove. Nė vienas jų nėra universalus ar nepriekaištingas. Parenkant algorimus atsižvelgiama į jų operacinį ir loginį sudėtingumą, sunaudojamą tyrimui kompiuterio laiką bei atmintį, tyrimo išvadų patikimumą.

  19. Duomenų gavybos metodai Neuroniniai tinklai (tiesiaeigio sklidimo, Saimono tinklai) Klasteriavimas Statistinis klasifikavimas Atraminių vektorių regresija ir klasifikavimas Daugialypė ir logistinė regresija Loginių taisyklių paieška Sprendimų medžiai Esminių kintamųjų ir faktorių tyrimas Evoliuciniai ir genetiniai algoritmai Duomenų vaizdavimas.

  20. Duomenų gavybos sistemos Išskirkiamos tokios DG sistemų klases: 1) Dalykinės analizės sistemos 2) Statistiniai programų paketai (SPSS, SAS, STATISTICA) 3) DG paketai

  21. Dalykinės srities analizės programos remiasi tos dalykinės srities empiriniais duomenimis – pvz., statybininkai žino viską apie betoną, medikai apie ligas ir vaistus, ir pan.). Šie metodai dažnai naudoja paprastą statistinį aparatą, bet maksimaliai įvertina susiklosčiusią srityje specifiką. Šios sistemos gali būti labai įvairios. Pvz., tokios sistemos dažnai naudojamos finansinių rinkų tyrimuose. Specializuota rinkos analizės sistema yra sudaryta iš finansinių indeksų sekų dinamikos analizės ir investicijų portfolio planavimo metodų.

  22. Statistinės analizės paketai (SPSS, StatGraphics, SAS, STATISTICA, R Statistical package) Beveik visų žinomų statistinių paketų paskutinėse versijose kartu su tradiciniais statistiniais metodais įtraukiami ir DG metodai. Tačiau pagrindinis dėmesys juose skiriamas klasikiniams metodams – koreliacinei, regresinei, faktorinei analizei ir pan. Tokių sistemų trūkumu laikoma specialaus vartotojo paruošimo būtinybė.

  23. Duomenų gavybos paketai Daugelis programinės įrangos korporacijų kuria ir platina atskirus produktus, skirtus DB duomenų gavybai. Lietuvoje tokią įranga platina Oracle, IBM DM Technology, SONEX, irk t.

  24. Išvada Duomenų gavybos taikymas nesibaigia “teisingo algoritmo” parinkimu. Čia svarbūs visi etapai: problemos identifikavimas, kokybiški duomenys, kurių pagrindu bus atliekama analizė, modelio parinkimas ir realizavimas, gautų rezultatų interpretavimas. Šioje srityje ypač reikalingas vartotojų išprusimas, nes nė viena sistema negali tapti "stebuklingu mygtuku", išspręsiančiu visas problemas.

  25. Literatūra M. Dunham. Data Mining. Introduction and Advanced topics L.Sakalauskas. Duomenų gavyba.

More Related