1 / 20

Valodas tehnoloģiju specseminārs Sintakse

Valodas tehnoloģiju specseminārs Sintakse. Lauma Pretkalniņa AILab. Kas ir kas?. Sintaktiskā analīze — vārdu savstarpējo sakaru analīze teksta līmenī Rezultāts — grafveida struktūra sakņots koks ( rooted tree ) — parasti

honey
Download Presentation

Valodas tehnoloģiju specseminārs Sintakse

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Valodas tehnoloģiju specseminārsSintakse Lauma Pretkalniņa AILab

  2. Kas ir kas? • Sintaktiskā analīze — vārdu savstarpējo sakaru analīze teksta līmenī • Rezultāts — grafveida struktūra • sakņots koks (rooted tree) — parasti • sakņotais koks var tikt papildināts ar sekundārajām šķautnēm, kopā veidojot orientētu aciklisku grafu (directed acyclic graph) — retāk • teksta primitīvi (tokens) atbilst grafa virsotnēm — visām vai dažām • grafa šķautnes atbilst sintaktiskajiem sakariem — lielākoties

  3. Gramatikas modeļi: frāžu struktūru gramatika phrasestructuregrammar • Teikums sastāv no dabiski nodalāmām frāzēm… • … frāzes tālāk atkal ir sadalāmas frāzēs… • … un tā līdz vārdu līmenim. (N. Chomsky) • Teksta primitīvi  koka lapas

  4. Frāžu struktūru gramatika: formālisms • Bezkonteksta gramatikas (context-free grammar — CFG) • S  NP VP • NP  N • NP  NP C NP • NP  NP PP • … • Varbūtiskās bezkonteksta gramatikas (probabilistic context-free grammar — PCFG) • katram likumam piekārtota varbūtība, • koka varbūtība — likumu varbūtību reizinājums. Bet lietojums, kas pieļaujams vienam vārdam, var nederēt citam! • Leksikalizētāsbezkonteksta gramatikas (lexicalized PCFG) • Katram likumam izvēlas galveno elementu. • Frāzes, kuru galvenie elementi ir dažādi vārdi, — dažādasVPbūt≠VPēst • N zēns • N  meitene • c  un • … Bet kā risināt daudznozīmību?

  5. Kā dabūt likumus? • Valodnieki uzraksta • Plašam pārklājumam daudz likumu — laikietilpīgi • Valodnieka valodas izjūta atšķiras no reālās valodas • Izgūt no sintaktiski marķēta korpusa • Jo lielāks korpuss, jo labāk — laikietilpīgi Bet praktiskā pieredze liecina, ka mazāk laikietilpīgi nekā likumu rakstīšana. • Nav likumu par korpusā nepārstāvētajām konstrukcijām

  6. Kā lietot likumus?frāžu struktūru gramatika • Gramatikas binarizācija • S  NP VP — der • S  NP VP PP — neder, sadala par S  NP X un X VP PP • Cocke-Kasami-Younger (CKY) parsēšanas algoritms • O(n3) sarežģītība • ar dinamisko programmēšanu efektīvi organizēta pilnā pārlase • augšupejošā pieeja Viņš iet prom

  7. Nu tad ķeramies pie latviešu valodas? • Kādas, jūsuprāt, būs grūtības? Viņš iet prom

  8. Nu tad ķeramies pie latviešu valodas? • Kādas, jūsuprāt, būs grūtības? • Divi dažādi likumi frāžu gramatikas izpratnē: • S  NP VP • S  VP NP

  9. Gramatikas modeļi: atkarību gramatika • Teikuma struktūru veido nevis saiknes starp frāzēm, bet starp vārdiem. • Tukšu koka virsotņu nav (sakne var būt izņēmums).

  10. Atkarību gramatika: formālisms • Mērķis — katram teksta primitīvam piemeklēt: • vecāku — citu vārdu vai īpašo saknes virsotni, • lomu — atkarības «birku» (nav obligāti). • Abas lietas ir atkarīgas no: • vecāka un bērna vārda nozīmes, • vecāka un bērna morfoloģijas, • apkaimes, • …

  11. Kā dabūt teikuma struktūru?Atkarību gramatika • Pamata pieejas • Grafa parseris (graphbasedparser),M. Collinsetal. • Pāreju parseris (transitionbasedparser),J. Nivreetal.

  12. Atkarību gramatikas parseri: grafu parseris • Galvenie raksturlielumi: • augšupejoša analīze, • analīzes rezultāts — projektīvs koks, • darbības laiks — O(n3), O(n4) pret teikuma garumu. • Darbības principi: • Galīgs skaits grafa fragmentu — pirmelementu • Likumi vārdu apvienošanai pirmelementos un pirmelementu tālākai apvienošanai jaunos pirmelementos • Korpusā apmācīts mašīnmācīšanās modulis nosaka, kura likuma pielietošana katrā solī ir visticamākā

  13. Atkarību gramatikas parseri: pāreju parseris I • Augšupejoša analīze • Analīzes rezultāts patvaļīgs koks • Darbības laiks • O(n)projektīviem kokiem, • O(n2) sliktākajā gadījumā

  14. Atkarību gramatikas parseri: pāreju parserisII • Datu struktūras • buferis B(sākumā satur visus vārdus), • steks S (sākumā tukšs). • Katrā solī izpilda kādu no darbībām: • ar atkarību savieno divas virsējās S virsotnes, atkarīgo izmet no S; • pārvieto pirmo B elementu uz steku; • pārvieto pirmo S elementu uz B (tikai, ja pēc tam divi augšējie S elementi ir tādā pašā secībā kā teikumā). • Korpusā apmācīts mašīnmācīšanās modulis nosaka, kura darbība katrā solī ir visticamākā • Beidz, kad B tukšs un S satur 1 elementu

  15. Modeļu savstarpējās atbilsmes • Lielākoties frāžu kokus var pārveidot par atkarību kokiem un otrādi: • atkarība projektīvā kokā  divelementu frāze • frāze ar atzīmētu galveno elementu  pārējie elementi atkarīgi no galvenā • Pārtraukto frāžu (discontinuous constituents) problēma • [[He][said [[he][likes [that [idea]]]]]]. • … that idea he said he likes. • Pārtrauktās frāzes atbilstneprojektīvajām šķautnēm

  16. Gramatikas modeļi:SemTi-Kamols • Hibrīds • atkarības — koka šķautnes • frāzes — koka virsotnes • Izstrādāts latviešu valodai, bet tuvs pirmajam atkarību gramatikas variantam (L.Tenjērs / L. Tesnière)

  17. SemTi-Kamola «čankeris» • Formālu likumu komplekts vienkāršu paplašinātu teikumu analīzei • Prolog realizācija • Ja nevar izanalizēt visu, dod analīzes rezultātus «saprastajiem» fragmentiem • Ļoti augsta daudznozīmība

  18. Latviešu valodas statistiskā parsēšana • Latviešu valodas sintaktiski anotētais korpuss • Anotācijas atbilst SemTi-Kamola gramatikas modelim • 3747 teikumi • 51927 teksta primitīvi • Katru frāzi var pārveidot par atkarību apakškociņu • pārveidošanas likumus var pielāgot atkarībā no plānotā parsera lietojuma • Ar iegūto atkarību korpusu var apmācīt atkarību parserus

  19. Precizitāte latviešu valodai • MaltParser, 2013.gada oktobrī • UAS (unlabeledattachmentscore) — cik elementiem ir pareizie vecāki (%) • LAS (labeledattachmentscore) — cik elementiem ir pareizie vecāki un pareizās lomas (%) • LA (labelaccuracy) — cik lomas ir pareizas (%)

  20. Paldies!

More Related