1 / 10

Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu

Nyelvi technológiákkal az információs társadalomért. Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu. Miért kell nyelvtechnológia?. Információ = (jórészt) nyelvi információ Természetes nyelvi kommunikáció A szöveg az INTERNET alapanyaga

april
Download Presentation

Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nyelvi technológiákkal az információs társadalomért Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály varadi@nytud.hu INFOtrend 2003

  2. Miért kell nyelvtechnológia? • Információ = (jórészt) nyelvi információ • Természetes nyelvi kommunikáció • A szöveg az INTERNET alapanyaga • A szöveg nem csak karaktersorozat • A nyelvi szerkezet nem a felszínen van • Intelligens keresés – szemantikus WEB • Cél: a szöveg megértése INFOtrend 2003

  3. Mit nyújt a nyelvtechnológia? • Nyelvi erőforrások • Korpuszok (nagyméretű szöveges adatbázisok) • Lexikai adatbázisok • Nyelvelemző algoritmusok • Statisztikai vagy szabályalapú rendszerek • Reprezentációs szabványok • XML annotáció INFOtrend 2003

  4. Alkalmazási területek • Szövegszerkesztés • Intelligens keresés • Természetes nyelvi lekérdezés • Tartalom alapú dokumentumkezelés • Információ kinyerés • Természetes nyelvi dialógus rendszerek • Gépi fordítás INFOtrend 2003

  5. Korpusznyelvészeti Osztály • 1997-ben alakult • Nyelvi erőforrások fejlesztése • Magyar Nemzeti Szövegtár • Angol-magyar párhuzamos korpusz • Értelmező Kéziszótár XML változat • Igei vonzatszótár és lexikai adatbázis • Morfológiai adatbázis • Gyakorisági adatbázis INFOtrend 2003

  6. EU Projektek • MULTEXT-EAST Párhuzamos korpusz angol6 Kelet-Eu nyelv • CONCEDE Szabványos lexikai adatbázis fejlesztés • MATCHPAD Systran gépi fordító rendszer magyarra • TELRI Infrastruktúrális networking projekt INFOtrend 2003

  7. Hazai támogatású projektek • Magyar Nemzeti Szövegtár 150 millió szavas nyelvileg elemzett korpusz • Információkinyerés rövid hírekből 2001-2003 NKFP 02/017 pályázat • Mondatszintaxis gépi tanulása 2002-2004 IKTA pályázat • Intelligens szótár és lexikai adatbázis 2003-2004 ITEM pályázat INFOtrend 2003

  8. Eredmények • Morfoszintaktikai elemző és egyértelműsítő technológiai láncsor • Igei vonzatkeret szótár • Gyakorisági adatbázis (MNSZ alapján) • Felszíni szintaktikai elemző • Angol-magyar, magyar-francia gépi fordító prototípus • Nyílt tokenosztály elemző rendszer INFOtrend 2003

  9. Folyó munkálatok • Magyar nyelvi szintaktikai elemző • Szemantikai annotáló rendszer • Felső szintű ontológia • Komplex lexikai adatbázis • Tartalomra épülő dokumentumosztályozás • Angol-magyar párhuzamos korpusz • WORDNET magyar változat INFOtrend 2003

  10. Partnereink • MorphoLogic Kft • Szegedi Tudományegyetem Informatikai Tanszékcsoport • Akadémiai Kiadó • BME Média Oktató és Kutató Központ • Neumann János Digitális Könyvtár és Multimédia Központ INFOtrend 2003

More Related