150 likes | 432 Views
Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby. Karol Furdík. Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/.
E N D
Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby Karol Furdík Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/
Obsah prezentácie Kontext • Projekt KP-Lab: klasifikácia a zhlukovanie pre eLearning • Projekt PoZnaŤ: adaptácia na podmienky slovenského školstva Architektúra, implementačná platforma Predspracovanie textu • Extrakcia termov, príklad vstupu a výstupu • Fázy predspracovania podľa jazykových rovín (1 - 6) Očakávané výstupy a výsledky
Projekt KP-Lab Plný názov: Knowledge Practices Laboratory Web: www.kp-lab.org Začiatok: 1. február 2006 Trvanie: 5 rokov • Integrovaný EÚ - FP6 IST projekt č. 27490 • 22 partnerov zo 14 krajín • Koordinátor: Univerzita Helsinki Hlavný cieľ: tvorba výučbového systému na podporu inovatívnych činností pri získavaní, zdieľaní a práci so znalosťami vo vyučovacom procese. eLearning systém založený na Teórii aktivít a tzv. Trialogickom učení.
KP-Lab Shared Space Znalostné artefakty v zdieľanom priestore Sémantická anotácia znalostného artefaktu
Klasifikácia a zhlukovanie v projekte KP-Lab Služby klasifikácie a zhlukovania, využívané pri anotácii artefaktov Služby predspracovania textu pre klasifikáciu a zhlukovanie Konzola (web aplikácia) na nastavenie text mining služieb Zdieľaný priestor systému KP-Lab
Projekt PoZnaŤ Plný názov: Podpora procesov tvorby nových znalostí Trvanie: 30 mesiacov (február 2007 - júl 2009) Web: www.tuke.sk/fei-cit/poznat/ Projekt je podporovaný slovenskou Agentúrou pre podporu výskumu a vývoja, zmluva č. RPEU-0011-06 Nadväzuje na integrovaný EU projekt KP-Lab Zameranie: eLearning, manažment znalostí. Hlavný cieľ: adaptácia výučbových nástrojov trialogického učenia na podmienky slovenského vysokého školstva.
Ciele projektu PoZnaŤ • Vytvorenie integrovaných nástrojov pre NLP (slovenčina) • Tvorba údajovej základne pre reprezentáciu znalostí a pre NLP: • korpus trénovacích textov • slovníky / údajové štruktúry pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín • Analýza výstupov pomocou metód umelej inteligencie: • data mining, text mining, zhlukovanie, klasifikácia • reprezentácia a manažment znalostí • Overenie výsledkov na pilotnej aplikácii v rámci predmetu Manažment znalostí (FEI a EkF TU Košice)
Implementačná platforma Programovací jazyk Java Knižnica JBowl: http://sourceforge.net/projects/jbowl/ • klasifikačné a zhlukovacie algoritmy, indexácia textov • anotačné vrstvy pre ohodnocovanie textov na úrovniach jazykových rovín (morfologická, slovotvorná, syntaktická, sémantická anotácia) Platforma GATE: http://www.gate.ac.uk • algoritmy pre tokenizáciu, členenie na vety, POS tagging, sémantickú anotáciu, atď. • nástroje na budovanie korpusu textov • podpora prepojenia s ontológiami
Predspracovanie textu Príklad - fragment textu: PARALIČ, Ján: Objavovanie znalostí v databázach. Habilitačná práca, Technická univerzita v Košiciach, 2003, s. 4. Výstup - extrakcia termov ohodnotených váhami: vzor (0,5) množina vzorov (0,6) výber z množiny vzorov (0,8) analýza (0,5) analýza vzorov (0,8) znalosť (0,3) nová znalosť (0,4) užitočná znalosť (0,4) potenciálne užitočná znalosť (0,5) Data Mining (DM) (0,6) algoritmus DM (0,5) aplikácia algoritmu DM (0,4) výsledok aplikácie algoritmu DM (0,4) vybraný algoritmus DM (0,4) úloha (0,2) úloha DM (0,3) zvolená úloha DM (0,4) typ zvolenej úlohy (0,4) cieľová úloha (0,3) riešenie cieľovej úlohy (0,4)
Fázy analýzy textu (1) 1. Konverzia textov na jednotný normalizovaný formát • vstup: PDF, MS Word, HTML, XML, plain-text • výstup: XML - plain-text + metainformácie 2. Segmentácia, značkovanie (tokenizácia) • členenie na elementárne textové jednotky: 3. Lematizácia, POS tagging, morfologická anotácia, dezambiguácia • eliminácia stop-words: NIE, lebo by to znemožnilo syntaktickú analýzu • algoritmy: Brillov tagger, GATE: ANNIE, model tvarovej podobnosti (Furdík, 2003), morfologické slovníky,morfologicky anotovaný korpus (značkovanie FI MU Brno) | Výsledkom | aplikácie | algoritmov | DM | je | množina | vzorov | ( | ich | forma | závisí | na | type | zvolenej | úlohy | DM | , | ako | aj | na | vybranom | algoritme | DM | ) | , | ktoré | výsledkom <l>výsledok <c>k1gInSc7 <c>k1gInPc3 aplikácie <l>aplikácia <c>k1gFnSc2 <c>k1gFnPc1 <c>k1gFnPc4 algoritmov <l>algoritmus <c>k1gInPc2 DM <l>DM <c>kA je <l>byť <c>k5p3tPmI
Fázy analýzy textu (2) 4. Slovotvorná analýza: • slovnodruhové, slovotvorne motivované transformácie, slovotvorné hniezda • algoritmy: slovotv. slovník, typy onomaz. kategórií 5. Syntaktická analýza • určenie kolokácií, syntagmatických vzťahov • metódy: valencia, vetné vzorce, ATN siete • algoritmy: Charniakov synt. analyzátor,JBowl: ATN parser, štatistické metódy (n-gramy) 6. Sémantická analýza • identifikácia termov, ich atribútov a vzáj. relácií • algoritmy: sémantické slovníky (typu WordNET),ontológie, štruktúrálna analýza aplikovať aplikácia aplikovanie aplikovaný neaplikovaný výsledok výsledný výsledkový (#AuxS (Pred je (Sb množina (Atr vzorov)) (Obj Výsledkom (Atr aplikácie (Atr algoritmov (Atr DM)))))) Data Mining (DM) (0,6) algoritmus DM (0,5) aplikácia algoritmu DM (0,4) výsledok aplikácie algoritmu DM (0,4) vybraný algoritmus DM (0,4)
Výstupy projektu PoZnaŤ Hlavný výstup: SW nástroje pre podporu trialogického typu učenia v podmienkach slovenského vysokého školstva Výstupy pre počítačové spracovanie slovenčiny: • integrované nástroje pre NLP (free, open source) • anotovaný korpus trénovacích textov • slovníky / údajové štruktúry + algoritmy pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín Doteraz realizovaný výstup: Prototyp obslužnej konzoly pre text mining - klasifikačné služby: • web aplikácia na JSP a mySql platforme; • testy na troch skupinách reálnych výučbových dokumentov.
Ďakujem Vámza pozornosť. PoZnaŤ - Podpora procesov tvorby nových znalostí Web: www.tuke.sk/fei-cit/poznat/ KP-Lab - Knowledge Practices Laboratory Web: www.kp-lab.org