Nyelvtechnológia alprojekt. Farkas Richárd Szeged, 2012. december 7. nyelvtechnológia természetes nyelvfeldolgozás (NLP) természetesnyelv-feldolgozás (NLP) számítógépes nyelvészet (CL).
Nyelvtechnológiaalprojekt Farkas Richárd Szeged, 2012. december 7.
nyelvtechnológia természetes nyelvfeldolgozás (NLP) természetesnyelv-feldolgozás (NLP) számítógépes nyelvészet (CL)
Alprojekt partnerek • SzTE Nyelvtechnológiai csoport • SzTE Sz.Alg. és Mest. Int. tanszék • Kornai András, SzTAKI • BME TMIT
Feladatok • szintaktikai elemzés • szemantikai reprezentáció és elemzés • beszéd2szöveg • beszéd non-verbális jegyei • beszédgenerálás • speciális gépi tanulási módszerek
Dokumentum-klaszterezés és címkézés Linguistics Machine Learning Probability therory
Kulcsszókinyerés Frázisok halmaza, ami tömören reprezentálja egy dokumentum tartalmát.
Entitások személyek, szervezetek, helyszínek United States Department of Homeland Security szemantikai osztály: Ford normalizálás:Manchester United és vörös ördögök
Információkinyerés • Entitások közti relációk • Események
Véleménydetekció vélemény termékekről, ötletekről, témákról különböző aspektusok mentén
FuturICT flagship kapcsolódási pontok • The “Planetary Nervous System” will turn raw data into semantically meaningful information. • The “Innovation Accelerator” • The “Global Participatory Platform” will connect data, models, and knowledge with people. • “Exploratories” Finance&Economy, Health, Crime&Conflict
FuturICT.hukapcsolódási pontok • Tudományok tudománya → hivatkozások osztályozása, másolás detektálás → kutatók, intézetek, témák kapcsolata → szakértő keresés → kulcsszó alapú szemantikus navigáció és trendelemzés ← adattisztítás ← web méretű gépi tanulás
FuturICT.hukapcsolódási pontok • Twitter adatfolyam előfeldolgozása → nyelvi előelemzés → véleménydetekció ← tweet adatbázis valós ideje lekérdezése ← nyilvános adat archívumok
FuturICT.hukapcsolódási pontok • Társadalmi struktúrák modellezése → adatbázistisztítás → szöveges adathalmazok ← csoportok időfejlődése • Hálózatok szerkezete és dinamikája → hogyan terjed/alakul az információ a web2.0 érában → hogyan formálódnak a vélemények, szerepek → innováció folyamata
FuturICT.hukapcsolódási pontok • Okostelefonok középréteg és/vagy Teljesen elosztott adatbányászat • jegyzetelő vagy üzenetváltó alkalmazás, • intelligens, • öntanuló személyes/üzleti adat!
Nyelvtechnológia alprojekt www.inf.u-szeged.hu/rgai/nlp www.tmit.bme.hu www.sztaki.hu/reszleg/LT rfarkas@inf.u-szeged.hu