1 / 14

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby. Karol Furdík. Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/.

eldon
Download Presentation

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby Karol Furdík Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/

  2. Obsah prezentácie Kontext • Projekt KP-Lab: klasifikácia a zhlukovanie pre eLearning • Projekt PoZnaŤ: adaptácia na podmienky slovenského školstva Architektúra, implementačná platforma Predspracovanie textu • Extrakcia termov, príklad vstupu a výstupu • Fázy predspracovania podľa jazykových rovín (1 - 6) Očakávané výstupy a výsledky

  3. Projekt KP-Lab Plný názov: Knowledge Practices Laboratory Web: www.kp-lab.org Začiatok: 1. február 2006 Trvanie: 5 rokov • Integrovaný EÚ - FP6 IST projekt č. 27490 • 22 partnerov zo 14 krajín • Koordinátor: Univerzita Helsinki Hlavný cieľ: tvorba výučbového systému na podporu inovatívnych činností pri získavaní, zdieľaní a práci so znalosťami vo vyučovacom procese. eLearning systém založený na Teórii aktivít a tzv. Trialogickom učení.

  4. KP-Lab Shared Space Znalostné artefakty v zdieľanom priestore Sémantická anotácia znalostného artefaktu

  5. Klasifikácia a zhlukovanie v projekte KP-Lab Služby klasifikácie a zhlukovania, využívané pri anotácii artefaktov Služby predspracovania textu pre klasifikáciu a zhlukovanie Konzola (web aplikácia) na nastavenie text mining služieb Zdieľaný priestor systému KP-Lab

  6. Projekt PoZnaŤ Plný názov: Podpora procesov tvorby nových znalostí Trvanie: 30 mesiacov (február 2007 - júl 2009) Web: www.tuke.sk/fei-cit/poznat/ Projekt je podporovaný slovenskou Agentúrou pre podporu výskumu a vývoja, zmluva č. RPEU-0011-06 Nadväzuje na integrovaný EU projekt KP-Lab Zameranie: eLearning, manažment znalostí. Hlavný cieľ: adaptácia výučbových nástrojov trialogického učenia na podmienky slovenského vysokého školstva.

  7. Ciele projektu PoZnaŤ • Vytvorenie integrovaných nástrojov pre NLP (slovenčina) • Tvorba údajovej základne pre reprezentáciu znalostí a pre NLP: • korpus trénovacích textov • slovníky / údajové štruktúry pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín • Analýza výstupov pomocou metód umelej inteligencie: • data mining, text mining, zhlukovanie, klasifikácia • reprezentácia a manažment znalostí • Overenie výsledkov na pilotnej aplikácii v rámci predmetu Manažment znalostí (FEI a EkF TU Košice)

  8. Architektúra riešenia

  9. Implementačná platforma Programovací jazyk Java Knižnica JBowl: http://sourceforge.net/projects/jbowl/ • klasifikačné a zhlukovacie algoritmy, indexácia textov • anotačné vrstvy pre ohodnocovanie textov na úrovniach jazykových rovín (morfologická, slovotvorná, syntaktická, sémantická anotácia) Platforma GATE: http://www.gate.ac.uk • algoritmy pre tokenizáciu, členenie na vety, POS tagging, sémantickú anotáciu, atď. • nástroje na budovanie korpusu textov • podpora prepojenia s ontológiami

  10. Predspracovanie textu Príklad - fragment textu: PARALIČ, Ján: Objavovanie znalostí v databázach. Habilitačná práca, Technická univerzita v Košiciach, 2003, s. 4. Výstup - extrakcia termov ohodnotených váhami: vzor (0,5) množina vzorov (0,6) výber z množiny vzorov (0,8) analýza (0,5) analýza vzorov (0,8) znalosť (0,3) nová znalosť (0,4) užitočná znalosť (0,4) potenciálne užitočná znalosť (0,5) Data Mining (DM) (0,6) algoritmus DM (0,5) aplikácia algoritmu DM (0,4) výsledok aplikácie algoritmu DM (0,4) vybraný algoritmus DM (0,4) úloha (0,2) úloha DM (0,3) zvolená úloha DM (0,4) typ zvolenej úlohy (0,4) cieľová úloha (0,3) riešenie cieľovej úlohy (0,4)

  11. Fázy analýzy textu (1) 1. Konverzia textov na jednotný normalizovaný formát • vstup: PDF, MS Word, HTML, XML, plain-text • výstup: XML - plain-text + metainformácie 2. Segmentácia, značkovanie (tokenizácia) • členenie na elementárne textové jednotky: 3. Lematizácia, POS tagging, morfologická anotácia, dezambiguácia • eliminácia stop-words: NIE, lebo by to znemožnilo syntaktickú analýzu • algoritmy: Brillov tagger, GATE: ANNIE, model tvarovej podobnosti (Furdík, 2003), morfologické slovníky,morfologicky anotovaný korpus (značkovanie FI MU Brno) | Výsledkom | aplikácie | algoritmov | DM | je | množina | vzorov | ( | ich | forma | závisí | na | type | zvolenej | úlohy | DM | , | ako | aj | na | vybranom | algoritme | DM | ) | , | ktoré | výsledkom <l>výsledok <c>k1gInSc7 <c>k1gInPc3 aplikácie <l>aplikácia <c>k1gFnSc2 <c>k1gFnPc1 <c>k1gFnPc4 algoritmov <l>algoritmus <c>k1gInPc2 DM <l>DM <c>kA je <l>byť <c>k5p3tPmI

  12. Fázy analýzy textu (2) 4. Slovotvorná analýza: • slovnodruhové, slovotvorne motivované transformácie, slovotvorné hniezda • algoritmy: slovotv. slovník, typy onomaz. kategórií 5. Syntaktická analýza • určenie kolokácií, syntagmatických vzťahov • metódy: valencia, vetné vzorce, ATN siete • algoritmy: Charniakov synt. analyzátor,JBowl: ATN parser, štatistické metódy (n-gramy) 6. Sémantická analýza • identifikácia termov, ich atribútov a vzáj. relácií • algoritmy: sémantické slovníky (typu WordNET),ontológie, štruktúrálna analýza aplikovať  aplikácia  aplikovanie  aplikovaný  neaplikovaný výsledok  výsledný  výsledkový (#AuxS (Pred je (Sb množina (Atr vzorov)) (Obj Výsledkom (Atr aplikácie (Atr algoritmov (Atr DM)))))) Data Mining (DM) (0,6) algoritmus DM (0,5) aplikácia algoritmu DM (0,4) výsledok aplikácie algoritmu DM (0,4) vybraný algoritmus DM (0,4)

  13. Výstupy projektu PoZnaŤ Hlavný výstup: SW nástroje pre podporu trialogického typu učenia v podmienkach slovenského vysokého školstva Výstupy pre počítačové spracovanie slovenčiny: • integrované nástroje pre NLP (free, open source) • anotovaný korpus trénovacích textov • slovníky / údajové štruktúry + algoritmy pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín Doteraz realizovaný výstup: Prototyp obslužnej konzoly pre text mining - klasifikačné služby: • web aplikácia na JSP a mySql platforme; • testy na troch skupinách reálnych výučbových dokumentov.

  14. Ďakujem Vámza pozornosť. PoZnaŤ - Podpora procesov tvorby nových znalostí Web: www.tuke.sk/fei-cit/poznat/ KP-Lab - Knowledge Practices Laboratory Web: www.kp-lab.org

More Related