Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby Karol Furdík Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/

Obsah prezentácie Kontext • Projekt KP-Lab: klasifikácia a zhlukovanie pre eLearning • Projekt PoZnaŤ: adaptácia na podmienky slovenského školstva Architektúra, implementačná platforma Predspracovanie textu • Extrakcia termov, príklad vstupu a výstupu • Fázy predspracovania podľa jazykových rovín (1 - 6) Očakávané výstupy a výsledky

Projekt KP-Lab Plný názov: Knowledge Practices Laboratory Web: www.kp-lab.org Začiatok: 1. február 2006 Trvanie: 5 rokov • Integrovaný EÚ - FP6 IST projekt č. 27490 • 22 partnerov zo 14 krajín • Koordinátor: Univerzita Helsinki Hlavný cieľ: tvorba výučbového systému na podporu inovatívnych činností pri získavaní, zdieľaní a práci so znalosťami vo vyučovacom procese. eLearning systém založený na Teórii aktivít a tzv. Trialogickom učení.

KP-Lab Shared Space Znalostné artefakty v zdieľanom priestore Sémantická anotácia znalostného artefaktu

Klasifikácia a zhlukovanie v projekte KP-Lab Služby klasifikácie a zhlukovania, využívané pri anotácii artefaktov Služby predspracovania textu pre klasifikáciu a zhlukovanie Konzola (web aplikácia) na nastavenie text mining služieb Zdieľaný priestor systému KP-Lab

Projekt PoZnaŤ Plný názov: Podpora procesov tvorby nových znalostí Trvanie: 30 mesiacov (február 2007 - júl 2009) Web: www.tuke.sk/fei-cit/poznat/ Projekt je podporovaný slovenskou Agentúrou pre podporu výskumu a vývoja, zmluva č. RPEU-0011-06 Nadväzuje na integrovaný EU projekt KP-Lab Zameranie: eLearning, manažment znalostí. Hlavný cieľ: adaptácia výučbových nástrojov trialogického učenia na podmienky slovenského vysokého školstva.

Ciele projektu PoZnaŤ • Vytvorenie integrovaných nástrojov pre NLP (slovenčina) • Tvorba údajovej základne pre reprezentáciu znalostí a pre NLP: • korpus trénovacích textov • slovníky / údajové štruktúry pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín • Analýza výstupov pomocou metód umelej inteligencie: • data mining, text mining, zhlukovanie, klasifikácia • reprezentácia a manažment znalostí • Overenie výsledkov na pilotnej aplikácii v rámci predmetu Manažment znalostí (FEI a EkF TU Košice)

Architektúra riešenia

Implementačná platforma Programovací jazyk Java Knižnica JBowl: http://sourceforge.net/projects/jbowl/ • klasifikačné a zhlukovacie algoritmy, indexácia textov • anotačné vrstvy pre ohodnocovanie textov na úrovniach jazykových rovín (morfologická, slovotvorná, syntaktická, sémantická anotácia) Platforma GATE: http://www.gate.ac.uk • algoritmy pre tokenizáciu, členenie na vety, POS tagging, sémantickú anotáciu, atď. • nástroje na budovanie korpusu textov • podpora prepojenia s ontológiami

Predspracovanie textu Príklad - fragment textu: PARALIČ, Ján: Objavovanie znalostí v databázach. Habilitačná práca, Technická univerzita v Košiciach, 2003, s. 4. Výstup - extrakcia termov ohodnotených váhami: vzor (0,5) množina vzorov (0,6) výber z množiny vzorov (0,8) analýza (0,5) analýza vzorov (0,8) znalosť (0,3) nová znalosť (0,4) užitočná znalosť (0,4) potenciálne užitočná znalosť (0,5) Data Mining (DM) (0,6) algoritmus DM (0,5) aplikácia algoritmu DM (0,4) výsledok aplikácie algoritmu DM (0,4) vybraný algoritmus DM (0,4) úloha (0,2) úloha DM (0,3) zvolená úloha DM (0,4) typ zvolenej úlohy (0,4) cieľová úloha (0,3) riešenie cieľovej úlohy (0,4)

Fázy analýzy textu (1) 1. Konverzia textov na jednotný normalizovaný formát • vstup: PDF, MS Word, HTML, XML, plain-text • výstup: XML - plain-text + metainformácie 2. Segmentácia, značkovanie (tokenizácia) • členenie na elementárne textové jednotky: 3. Lematizácia, POS tagging, morfologická anotácia, dezambiguácia • eliminácia stop-words: NIE, lebo by to znemožnilo syntaktickú analýzu • algoritmy: Brillov tagger, GATE: ANNIE, model tvarovej podobnosti (Furdík, 2003), morfologické slovníky,morfologicky anotovaný korpus (značkovanie FI MU Brno) | Výsledkom | aplikácie | algoritmov | DM | je | množina | vzorov | ( | ich | forma | závisí | na | type | zvolenej | úlohy | DM | , | ako | aj | na | vybranom | algoritme | DM | ) | , | ktoré | výsledkom <l>výsledok <c>k1gInSc7 <c>k1gInPc3 aplikácie <l>aplikácia <c>k1gFnSc2 <c>k1gFnPc1 <c>k1gFnPc4 algoritmov <l>algoritmus <c>k1gInPc2 DM <l>DM <c>kA je <l>byť <c>k5p3tPmI

Fázy analýzy textu (2) 4. Slovotvorná analýza: • slovnodruhové, slovotvorne motivované transformácie, slovotvorné hniezda • algoritmy: slovotv. slovník, typy onomaz. kategórií 5. Syntaktická analýza • určenie kolokácií, syntagmatických vzťahov • metódy: valencia, vetné vzorce, ATN siete • algoritmy: Charniakov synt. analyzátor,JBowl: ATN parser, štatistické metódy (n-gramy) 6. Sémantická analýza • identifikácia termov, ich atribútov a vzáj. relácií • algoritmy: sémantické slovníky (typu WordNET),ontológie, štruktúrálna analýza aplikovať  aplikácia  aplikovanie  aplikovaný  neaplikovaný výsledok  výsledný  výsledkový (#AuxS (Pred je (Sb množina (Atr vzorov)) (Obj Výsledkom (Atr aplikácie (Atr algoritmov (Atr DM)))))) Data Mining (DM) (0,6) algoritmus DM (0,5) aplikácia algoritmu DM (0,4) výsledok aplikácie algoritmu DM (0,4) vybraný algoritmus DM (0,4)

Výstupy projektu PoZnaŤ Hlavný výstup: SW nástroje pre podporu trialogického typu učenia v podmienkach slovenského vysokého školstva Výstupy pre počítačové spracovanie slovenčiny: • integrované nástroje pre NLP (free, open source) • anotovaný korpus trénovacích textov • slovníky / údajové štruktúry + algoritmy pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín Doteraz realizovaný výstup: Prototyp obslužnej konzoly pre text mining - klasifikačné služby: • web aplikácia na JSP a mySql platforme; • testy na troch skupinách reálnych výučbových dokumentov.

Ďakujem Vámza pozornosť. PoZnaŤ - Podpora procesov tvorby nových znalostí Web: www.tuke.sk/fei-cit/poznat/ KP-Lab - Knowledge Practices Laboratory Web: www.kp-lab.org

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby

Presentation Transcript

Úvod do UNIXu

L kov formy

CHOROBY KARDIOVASKUL RNEHO SYST MU

Mocov syst m

APPAREIL CARDIO-VASCULAIRE

GESTION DES FONCTIONS DE L ENTREPRISE

Hardware/ Software partitioning and pipelined scheduling on Run time Reconfigurable FPGAs

Dr. Beth Bean Director of Research and Information Colorado Department of Higher Education Ryan Allred Senior Data Syst

Citace a citační SW

كلية العلوم الاقتصادية و علوم التسيير قسم علوم التسيير السنة الأولى ماجستير / علوم التسيير

Citace a citační SW

Efektivní práce s informacemi a tvorba odborného textu

Jak psát vědecké články

GASTRONOMIE V EVROPSKÉM KONTEXTU

4IT101

Vyhľadávanie najbližších a najlepších objektov nad paralelnými viacrozmernými indexmi

Seznam plemenných hřebců

CQI

Jak se píše bakalářská práce?

VISUAL - Grafický dotazovací jazyk

PRS

Bibliografie - teorie