100 likes | 232 Views
Nyelvi technológiákkal az információs társadalomért. Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu. Miért kell nyelvtechnológia?. Információ = (jórészt) nyelvi információ Természetes nyelvi kommunikáció A szöveg az INTERNET alapanyaga
E N D
Nyelvi technológiákkal az információs társadalomért Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu INFOtrend 2003
Miért kell nyelvtechnológia? • Információ = (jórészt) nyelvi információ • Természetes nyelvi kommunikáció • A szöveg az INTERNET alapanyaga • A szöveg nem csak karaktersorozat • A nyelvi szerkezet nem a felszínen van • Intelligens keresés – szemantikus WEB • Cél: a szöveg megértése INFOtrend 2003
Mit nyújt a nyelvtechnológia? • Nyelvi erőforrások • Korpuszok (nagyméretű szöveges adatbázisok) • Lexikai adatbázisok • Nyelvelemző algoritmusok • Statisztikai vagy szabályalapú rendszerek • Reprezentációs szabványok • XML annotáció INFOtrend 2003
Alkalmazási területek • Szövegszerkesztés • Intelligens keresés • Természetes nyelvi lekérdezés • Tartalom alapú dokumentumkezelés • Információ kinyerés • Természetes nyelvi dialógus rendszerek • Gépi fordítás INFOtrend 2003
Korpusznyelvészeti Osztály • 1997-ben alakult • Nyelvi erőforrások fejlesztése • Magyar Nemzeti Szövegtár • Angol-magyar párhuzamos korpusz • Értelmező Kéziszótár XML változat • Igei vonzatszótár és lexikai adatbázis • Morfológiai adatbázis • Gyakorisági adatbázis INFOtrend 2003
EU Projektek • MULTEXT-EAST Párhuzamos korpusz angol6 Kelet-Eu nyelv • CONCEDE Szabványos lexikai adatbázis fejlesztés • MATCHPAD Systran gépi fordító rendszer magyarra • TELRI Infrastruktúrális networking projekt INFOtrend 2003
Hazai támogatású projektek • Magyar Nemzeti Szövegtár 150 millió szavas nyelvileg elemzett korpusz • Információkinyerés rövid hírekből 2001-2003 NKFP 02/017 pályázat • Mondatszintaxis gépi tanulása 2002-2004 IKTA pályázat • Intelligens szótár és lexikai adatbázis 2003-2004 ITEM pályázat INFOtrend 2003
Eredmények • Morfoszintaktikai elemző és egyértelműsítő technológiai láncsor • Igei vonzatkeret szótár • Gyakorisági adatbázis (MNSZ alapján) • Felszíni szintaktikai elemző • Angol-magyar, magyar-francia gépi fordító prototípus • Nyílt tokenosztály elemző rendszer INFOtrend 2003
Folyó munkálatok • Magyar nyelvi szintaktikai elemző • Szemantikai annotáló rendszer • Felső szintű ontológia • Komplex lexikai adatbázis • Tartalomra épülő dokumentumosztályozás • Angol-magyar párhuzamos korpusz • WORDNET magyar változat INFOtrend 2003
Partnereink • MorphoLogic Kft • Szegedi Tudományegyetem Informatikai Tanszékcsoport • Akadémiai Kiadó • BME Média Oktató és Kutató Központ • Neumann János Digitális Könyvtár és Multimédia Központ INFOtrend 2003