1 / 11

Sintaktiski anotēta latviešu valodas korpusa izveide

Sintaktiski anotēta latviešu valodas korpusa izveide. Lauma Pretkalniņa LU MII Mākslīgā intelekta laboratorija. Sintaktiski anotēta korpusa izmantošana. Statistisks sintaktiskais analizators daudznozīmības risināšana Tulkošana Semantiskā analīze Deskriptīvā lingvistika.

phiala
Download Presentation

Sintaktiski anotēta latviešu valodas korpusa izveide

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sintaktiski anotēta latviešu valodas korpusa izveide Lauma Pretkalniņa LU MII Mākslīgā intelekta laboratorija

  2. Sintaktiski anotēta korpusa izmantošana • Statistisks sintaktiskais analizators • daudznozīmības risināšana • Tulkošana • Semantiskā analīze • Deskriptīvā lingvistika

  3. Izmantotie rīki un resursi • No SemTi-Kamols projekta • gramatikas modelis • analīzes rīki • Prāgas atkarību korpusa (PDT) rīki • datu formāti • koku apstrādes rīki

  4. SemTi-Kamola paplašinājums • Pieturzīmes • Salikti teikumi

  5. Datu formāts • Prague Markup Language (PML) profils SemTi-Kamola datiem • PML — XML apakšvaloda lingvistiskām anotācijām • Izmanto 3 anotāciju līmeņus: • sintakse; • morfoloģija; • pamatteksts. • Savietojamība ar Prague Dependency Treebank (PDT) rīkiem • Datu konvertācijas līdzekļi • TIGER-XML • Moses izmantotie formāti

  6. Integrācija ar SemTi-Kamola rīkiem • Morfoloģiskais analizators • Pusautomātisks morfoloģiskās marķēšanas rīks • Sintaksesanalizators(daļējs)

  7. Integrācija ar PDT rīkiem • TrEd — sintakses koku manuāla rediģēšana • makro atkļūdošanai un biežāko darbību automatizēšanai • stila lapas • PML-TQ —meklēšana • u.c.

  8. nākotnes perspektīva • Integrācija ar TIGER-XML bāzētajiem rīkiem: • TiGer Search; • Salsa; • u.c.

  9. Tekstu anotēšana • Neliels pārsvarā manuāli anotēts korpuss: • 113 teikumi no J.Gordera “Sofijas pasaules”; • 139 teikumi – J.Einfelda stāsts “Melis”; • 110 teikumi interneta publicistikas. • Šobrīd strādājam ar A.Neiburgas “Stum stum”.

  10. Publikācijas • Pretkalniņa, L., Nešpore, G., Levāne-Petrova, K., Saulīte, B. (2011). A Prague Markup Language Profile for the SemTi-Kamols Grammar Model. In Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA), Riga, Latvia, (pp. 303–306). • Pretkalniņa, L., Nešpore, G., Levāne-Petrova, K., Saulīte, B. (2011). Towards a Latvian Treebank.Presented at the III Congreso Internacional de Lingüística de Corpus. Valencia, Spain, April, 7-9. • Pretkalniņa, L., Levāne-Petrova, K., (2011). Preparatory Work for Latvian Treebank. In Proceedings of International Conference CORPUS LINGUISTICS – 2011, St.Petersburg, Russia, (pp.53–58).

  11. Paldies par uzmanību! Jautājumi? http://eksperimenti.ailab.lv/tred/

More Related