210 likes | 452 Views
ECCAI Žinių atradimo vasaros mokyklos ACAI-05. Advanced Course on Knowledge Discovery (ACAI) complemented with 1 st SEKT Summer School on Semantic –Web http://www.ktschool.org/. Vieta, laikas. Ši vasaros mokykla vyko š.m. birželio 27 – liepos 8 d. Slovėnijoje, Liublianoje
E N D
ECCAI Žinių atradimo vasaros mokyklos ACAI-05 Advanced Course on Knowledge Discovery (ACAI) complemented with 1st SEKT Summer School on Semantic –Web http://www.ktschool.org/
Vieta, laikas • Ši vasaros mokykla vyko š.m. birželio 27 – liepos 8 d. • Slovėnijoje, Liublianoje • Registracijos mokestis – 700 € (gavome 400 € stipendiją iš Europos kompiuterinės intelektikos koordinacinio komiteto ECCAI; parėmė MII ir Baltic Amadeus)
Organizatoriai Jozefo Stefano Institutashttp://www.ijs.si/index.html Tai mokslinis tiriamasis gamtos mokslų ir technologijų institutas. Jame 2004 m. įsteigta tarptautinė antros pakopos (postgraduate) mokykla. Magistrų studijos tęsiamos doktorantūroje. Skyriai: fizikos, chemijos ir biochemijos, nanotechno-logijų, atominių techno-logijų, elektronikos ir infor-macinių technologijų ir kt.
Organizatoriai • Žinių technologijų skyrius (Department of Knowledge Technologies) http://kt.ijs.si/ Tyrimų sritys: • Duomenų gavyba (Data mining) • Kompiuterio mokymas (Machine learning) • Žinių valdymas (Knowledge management) • Kitos informacinės technologijos Buvo stambaus Europos sąjungos programos „Framework 5“ projekto koordinatoriai, tebėra kelių projektų dalyviai. Institutas yra šeštas pagal Europos sąjungos vykdomų projektų skaičių. Į patyrusių mokslininkų kolektyvą darniai įsilieja jaunieji tyrėjai.
Vasaros mokyklos dalyviai • Paskaitas skaitė: • apie 30 mokslininkų iš įvairių Europos šalių (Italijos, Vokietijos, Slovėnijos, Didžiosios Britanijos, Izraelio, Portugalijos) ir JAV. • keli studentai Paskaitų įrašus galima peržiūrėti internete http://www.ktschool.org/lectures.htm • Dauguma klausytojų – studentai (magistrantai, doktorantai). Viso apie 80.
ACAI-05 tematika I dalis – Intelektuali duomenų analizė (Intelligent Data Analysis) II dalis – Duomenų gavyba ir sprendimų priėmimas (Data Mining & Decision Support) • Statistiniai metodai, • Bajeso metodai • Stochastiniai paieškos metodai • Laiko eilučių analizė • Taisyklių formavimas indukcijos metodu (Rule Induction) • Neuroniniai tinklai • Fuzzy logika • Vizualizavimas • Duomenų gavyba (data mining) • Teksto gavyba (Text mining) • Žiniatinklio gavyba (Web mining) • Sprendimų medžiai • Kt.
SEKT tematika Semantically Enabled Knowledge Discovery • Knowledge Discovery • Human Language Technologies • Human Language Technologies for the Semantic Web • Ontology Management • Knowledge Access
Pateikta medžiaga • I dalis paskaitų buvo skaitoma iš knygos: Berthold and Hand (eds.), “Intelligent Data Analysis”, second edition, Springer 2003. • II dalis paskaitų buvo skaitoma iš knygos: Mladenic, Lavrac, Bohanec and Moyle (eds.) “Data Mining and Decision Support: Integration and Collaboration “, Kluwer 2003. Šias knygas galima buvo įsigyti už simbolinę kainą. Kiekvienas dalyvis gavo paskaitų medžiagą (Course Notes) (rodytas skaidres, literatūros sąrašus ir pan.) Skaidres galima rasti internete http://www.ktschool.org/lectures.htm
Praktinis mokymas • Be teorinių paskaitų, tris popietes buvo organizuojami praktiniai užsiėmimai, kuriuose buvo analizuojami, praktiškai išbandomi keturi duomenų analizės paketai: • Text Garden • Orange • Weka • R Kadangi reikėjo rinktis 3 iš 4, tai mes dalyvavome pirmųjų trijų paketų (Text Garden, Orange, Weka) mokyme. Visi paketai yra atvirojo kodo.
Text Garden http://kt.ijs.si/Dunja/textgarden/ • Pagrindiniai kūrėjai: Mark Grobelnik, Dunja Mladenic ir visa grupė studentų (Jozefo Stefano institutas) • Tai teksto analizės įrankis, leidžiantis lengvai apdoroti teksto dokumentus duomenų analizės tikslui. • Į jį įeina: • automatinis modelių generavimas • dokumentų klasifikavimas, • dokumentų klasterizavimas, • dokumentų vizualizavimas, • žiniatinklio dokumentų analizė • ir kt. Trūkumas: trūksta išbaigtumo, pateikimo vartotojui.
Orange http://www.ailab.si/orange • Pagrindinis kūrėjas: Blaz Zupan (Liublianos universitetas) • Pagrindiniai metodai: • Klasifikavimo: • K-artimiausių kaimynų • Naive Bayes • Klasifikavimo medžiai • Vizualizavimo: • Pasiskirstymai • Taškiniai grafikai (matricos) • MDS • Lygiagrečios koordinatės • RadViz, PolyViz • Survey Plot • Klasterizavimo: • K-vidurkių klasterizavimas • Hierarchinis klasterizavimas
Orange http://www.ailab.si/orange • Draugiška vartotojo aplinka • Patogūs įvairūs duomenų analizės įrankiai • Kadangi tai atvirojo kodo programa, jos kodą galima modifikuoti pagal savo poreikius • Paruošta gana didelė aibė duomenų analizei
Weka http://www.cs.waikato.ac.nz/ml/weka/ • Kuriama Waikato universitete Naujoje Zelandijoje. • Tai atvirojo kodo programa. • Programoje yra realizuoti duomenų paruošimo, klasifikavimo, regresijos, klasterizavimo, vizualizavimo, neuroninių tinklų, “association rules” metodai. • Gana išsami dokumentacija. Tačiau neįgudusiam vartotojui gali pasirodyti per sudėtinga grafinė sąsaja lyginant su Orange paketu.
Įspūdžiais dalinosi ACAI 05 dalyvės: Jolita Bernatavičienė (JolitaB@ktl.mii.lt) Olga Kurasova (Kurasova@ktl.mii.lt)