170 likes | 401 Views
Prototyp nástroja na klasifikáciu textových dokumentov v prostredí elektronickej výučby. Karol Furdík. Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/. Obsah prezentácie. Kontext
E N D
Prototyp nástroja na klasifikáciu textových dokumentov v prostredí elektronickej výučby Karol Furdík Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/
Obsah prezentácie Kontext • Projekt KP-Lab: klasifikácia a zhlukovanie pre eLearning • Projekt PoZnaŤ: adaptácia na podmienky slovenského školstva Architektúra, implementačná platforma Konzola pre Text Mining • Popis, použitie • Služby pre klasifikáciu • Predspracovanie textu - fázy podľa jazykových rovín (1 - 6) Budúce úlohy
Projekt PoZnaŤ Plný názov: Podpora procesov tvorby nových znalostí Trvanie: 30 mesiacov (február 2007 - júl 2009) Web: www.tuke.sk/fei-cit/poznat/ Projekt je podporovaný slovenskou Agentúrou pre podporu výskumu a vývoja, zmluva č. RPEU-0011-06 Nadväzuje na integrovaný EU projekt KP-Lab, www.kp-lab.org Zameranie: eLearning, manažment znalostí. Snaha o nový prístup v oblasti systémov pre podporu procesov tvorby nových znalostí, založený na teórii trialogického učenia
KP-Lab Shared Space Znalostné artefakty v zdieľanom priestore Sémantická anotácia znalostného artefaktu
Klasifikácia a zhlukovanie v projekte KP-Lab Služby klasifikácie a zhlukovania, využívané pri anotácii artefaktov Služby predspracovania textu pre klasifikáciu a zhlukovanie Konzola (web aplikácia) na nastavenie text mining služieb Zdieľaný priestor systému KP-Lab
Ciele projektu PoZnaŤ Hlavný cieľ: adaptácia výučbových nástrojov trialogického učenia na podmienky slovenského vysokého školstva. Čiastkové ciele: • Vytvorenie integrovaných nástrojov pre NLP (slovenčina) • Tvorba údajovej základne pre reprezentáciu znalostí a pre NLP: • korpus trénovacích textov • slovníky / údajové štruktúry pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín • Analýza výstupov pomocou metód umelej inteligencie: • data mining, text mining, zhlukovanie, klasifikácia • reprezentácia a manažment znalostí • Overenie výsledkov na pilotnej aplikácii v rámci predmetu Manažment znalostí (FEI a EkF TU Košice)
Výstupy projektu PoZnaŤ Hlavný výstup: SW nástroje pre podporu trialogického typu učenia v podmienkach slovenského vysokého školstva Očakávané prínosy: väčšia zainteresovanosť účastníkov výučby, podpora práce v tíme, nové metódy práce vrátane využitia mobilných technológií, cieľovo-orientovaná tvorba nových znalostí, prepojenosť výučby s praxou Výstupy pre počítačové spracovanie slovenčiny: • integrované nástroje pre NLP (free, open source) • anotovaný korpus trénovacích textov • slovníky / údajové štruktúry + algoritmy pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín
Implementačná platforma Programovací jazyk Java Knižnica JBowl: http://sourceforge.net/projects/jbowl/ • klasifikačné a zhlukovacie algoritmy, indexácia textov • anotačné vrstvy pre ohodnocovanie textov na úrovniach jazykových rovín (morfologická, slovotvorná, syntaktická, sémantická anotácia) Platforma GATE: http://www.gate.ac.uk • algoritmy pre tokenizáciu, členenie na vety, POS tagging, sémantickú anotáciu, atď. • nástroje na budovanie korpusu textov • podpora prepojenia s ontológiami
Konzola pre Text Mining (1) Web aplikácia na JSP a mySql platforme Klasifikácia neznámych dokumentov Trénovacia množina: dokumenty zaradené do preddefinovaných kategórií Zoznam klasifikačných projektov Dokumenty v trénovacej množine
Konzola pre Text Mining (2) Použitie: • Administrácia klasifikačných modelov pre KP-Lab eLearning systém (na podporu semi-automatického anotovania znalostných artefaktov v kolaboratívnom procese výučby) • Vizualizácia služieb knižnice JBowl(referenčná aplikácia pre JBowl) • Rozhranie pre predspracovanie a jazykovú analýzu textov (primárne pre slovenčinu) v rámci projektu PoZnaŤ; administrácia jazykových zdrojov: slovníkov, korpusov, NLP algoritmov Doteraz realizované: • Implementácia prototypu • Testovanie na troch kolekciách dokumentov - reálnych študijných materiálov
Služby pre klasifikáciu String createClassifier(String settings, String[] artefactURIs) void modifyModel(String moURI, String[] settings, String[] artefactURIs) String verifyModel(String modelURI, String[] artefactURI) void deleteModel(String moURI) String classify(String moURI, String[] artefactURIs, String format) Klasifikačné algoritmy - implementované v JBowl: • jednoduché porovnávanie termov, kNN, SVM, Winnow, Perceptron, Naive Bayes (multinomial & binomial), boosting, rozhodovacie pravidlá, rozhodovacie stromy Zhlukovacie algoritmy: • kMeans, SOM, GHSOM
Predspracovanie textu Príklad - fragment textu: PARALIČ, Ján: Objavovanie znalostí v databázach. Habilitačná práca, Technická univerzita v Košiciach, 2003, s. 4. Výstup - extrakcia termov ohodnotených váhami: vzor (0,5) množina vzorov (0,6) výber z množiny vzorov (0,8) analýza (0,5) analýza vzorov (0,8) znalosť (0,3) nová znalosť (0,4) užitočná znalosť (0,4) potenciálne užitočná znalosť (0,5) Data Mining (DM) (0,6) algoritmus DM (0,5) aplikácia algoritmu DM (0,4) výsledok aplikácie algoritmu DM (0,4) vybraný algoritmus DM (0,4) úloha (0,2) úloha DM (0,3) zvolená úloha DM (0,4) typ zvolenej úlohy (0,4) cieľová úloha (0,3) riešenie cieľovej úlohy (0,4)
Fázy analýzy textu (1) 1. Konverzia textov na jednotný normalizovaný formát • vstup: PDF, MS Word, HTML, XML, plain-text • výstup: XML - plain-text + metainformácie 2. Segmentácia, značkovanie (tokenizácia) • členenie na elementárne textové jednotky: 3. Lematizácia, POS tagging, morfologická anotácia, dezambiguácia • eliminácia stop-words: NIE, lebo by to znemožnilo syntaktickú analýzu • algoritmy: Brillov tagger, GATE: ANNIE, model tvarovej podobnosti (Furdík, 2003), morfologické slovníky,morfologicky anotovaný korpus (značkovanie FI MU Brno) | Výsledkom | aplikácie | algoritmov | DM | je | množina | vzorov | ( | ich | forma | závisí | na | type | zvolenej | úlohy | DM | , | ako | aj | na | vybranom | algoritme | DM | ) | , | ktoré | výsledkom <l>výsledok <c>k1gInSc7 <c>k1gInPc3 aplikácie <l>aplikácia <c>k1gFnSc2 <c>k1gFnPc1 <c>k1gFnPc4 algoritmov <l>algoritmus <c>k1gInPc2 DM <l>DM <c>kA je <l>byť <c>k5p3tPmI
Fázy analýzy textu (2) 4. Slovotvorná analýza: • slovnodruhové, slovotvorne motivované transformácie, slovotvorné hniezda • algoritmy: slovotv. slovník, typy onomaz. kategórií 5. Syntaktická analýza • určenie kolokácií, syntagmatických vzťahov • metódy: valencia, vetné vzorce, ATN siete • algoritmy: Charniakov synt. analyzátor,JBowl: ATN parser, štatistické metódy (n-gramy) 6. Sémantická analýza • identifikácia termov, ich atribútov a vzáj. relácií • algoritmy: sémantické slovníky (typu WordNET),ontológie, štruktúrálna analýza aplikovať aplikácia aplikovanie aplikovaný neaplikovaný výsledok výsledný výsledkový (#AuxS (Pred je (Sb množina (Atr vzorov)) (Obj Výsledkom (Atr aplikácie (Atr algoritmov (Atr DM)))))) Data Mining (DM) (0,6) algoritmus DM (0,5) aplikácia algoritmu DM (0,4) výsledok aplikácie algoritmu DM (0,4) vybraný algoritmus DM (0,4)
Budúce úlohy Implementácia služieb pre klasifikáciu (december 2007, podľa pracovného plánu projektu KP-Lab) Implementácia ďalších klasifikačných a zhlukovacích algoritmov, návrh a implementácia automatickej metódy na výber vhodného algoritmu podľa charakteristík trénovacej množiny (jar 2008) Návrh a vytvorenie údajovej základne (slovníkov, korpusov textov) pre spracovanie slovenčiny, implementácia NLP algoritmov (2008) Testovanie na pilotných aplikáciách projektu KP-Lab (jar 2008) Testovanie v rámci predmetu Manažment znalostí (letný semester 2008)
Ďakujem Vámza pozornosť. PoZnaŤ - Podpora procesov tvorby nových znalostí Web: www.tuke.sk/fei-cit/poznat/ KP-Lab - Knowledge Practices Laboratory Web: www.kp-lab.org