110 likes | 361 Views
Sintaktiski anotēta latviešu valodas korpusa izveide. Lauma Pretkalniņa LU MII Mākslīgā intelekta laboratorija. Sintaktiski anotēta korpusa izmantošana. Statistisks sintaktiskais analizators daudznozīmības risināšana Tulkošana Semantiskā analīze Deskriptīvā lingvistika.
E N D
Sintaktiski anotēta latviešu valodas korpusa izveide Lauma Pretkalniņa LU MII Mākslīgā intelekta laboratorija
Sintaktiski anotēta korpusa izmantošana • Statistisks sintaktiskais analizators • daudznozīmības risināšana • Tulkošana • Semantiskā analīze • Deskriptīvā lingvistika
Izmantotie rīki un resursi • No SemTi-Kamols projekta • gramatikas modelis • analīzes rīki • Prāgas atkarību korpusa (PDT) rīki • datu formāti • koku apstrādes rīki
SemTi-Kamola paplašinājums • Pieturzīmes • Salikti teikumi
Datu formāts • Prague Markup Language (PML) profils SemTi-Kamola datiem • PML — XML apakšvaloda lingvistiskām anotācijām • Izmanto 3 anotāciju līmeņus: • sintakse; • morfoloģija; • pamatteksts. • Savietojamība ar Prague Dependency Treebank (PDT) rīkiem • Datu konvertācijas līdzekļi • TIGER-XML • Moses izmantotie formāti
Integrācija ar SemTi-Kamola rīkiem • Morfoloģiskais analizators • Pusautomātisks morfoloģiskās marķēšanas rīks • Sintaksesanalizators(daļējs)
Integrācija ar PDT rīkiem • TrEd — sintakses koku manuāla rediģēšana • makro atkļūdošanai un biežāko darbību automatizēšanai • stila lapas • PML-TQ —meklēšana • u.c.
nākotnes perspektīva • Integrācija ar TIGER-XML bāzētajiem rīkiem: • TiGer Search; • Salsa; • u.c.
Tekstu anotēšana • Neliels pārsvarā manuāli anotēts korpuss: • 113 teikumi no J.Gordera “Sofijas pasaules”; • 139 teikumi – J.Einfelda stāsts “Melis”; • 110 teikumi interneta publicistikas. • Šobrīd strādājam ar A.Neiburgas “Stum stum”.
Publikācijas • Pretkalniņa, L., Nešpore, G., Levāne-Petrova, K., Saulīte, B. (2011). A Prague Markup Language Profile for the SemTi-Kamols Grammar Model. In Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA), Riga, Latvia, (pp. 303–306). • Pretkalniņa, L., Nešpore, G., Levāne-Petrova, K., Saulīte, B. (2011). Towards a Latvian Treebank.Presented at the III Congreso Internacional de Lingüística de Corpus. Valencia, Spain, April, 7-9. • Pretkalniņa, L., Levāne-Petrova, K., (2011). Preparatory Work for Latvian Treebank. In Proceedings of International Conference CORPUS LINGUISTICS – 2011, St.Petersburg, Russia, (pp.53–58).
Paldies par uzmanību! Jautājumi? http://eksperimenti.ailab.lv/tred/