1 / 15

Pēteris Paikens

Pēteris Paikens. Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs. Par mani. 2. kurss doktorantūrā Semantiskās informācijas ieguve no dabiskās valodas avotiem LU MII mākslīgā intelekta laboratorija: datorlingvistikas pētījumi un projekti

paige
Download Presentation

Pēteris Paikens

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pēteris Paikens Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs

  2. Par mani • 2. kurss doktorantūrā Semantiskās informācijas ieguve no dabiskās valodas avotiem • LU MII mākslīgā intelekta laboratorija: datorlingvistikas pētījumi un projekti • Teksta automātiskas datorlingvistikas analīzes pētījums jauna informācijas arhīva produkta izstrādē (LETA) • Latviešu valodas atbalsta rīku izstrāde resursu atklāšanai (LNB)

  3. Tēma Semantiskās informācijas ieguve no dabiskās valodas avotiem • Metodes tekstu priekšapstrādei • Semantikas reprezentācija • Iespējas automātiskai faktu ieguvei • Adaptācija «rūpnieciskam» lietojumam

  4. Praktiskā problēma • Ir tekstā minēti fakti par cilvēkiem un organizācijām (web, avīzes, radio) • Cilvēki māk meklēt faktus (google u.c.) • Cilvēki māk apkopot atrastos faktus • ... bet tas nav mērogojams ... • Kā to darīt automātiski?

  5. Praktiskā problēma - ilustrācija «Arī otra figūra Daimler lietā ir Bojāra ārštata padomnieks, un sens eksmēra draugs no armijas laikiem – Armands Zeihmanis.» Citāts no tvnet.lv raksta • Bojārs ↔ Zeihmanis: draugs, padomnieks • «Bojāra» → Gundars Bojārs, dz. 1967 • «eksmērs» = Bojārs (mērs 2001-2006)

  6. Rezultāts • Publiskie fakti – «CV» • Ziņās minētais – karjera, izglītība, ģimene • Lursoft, amatpersonu deklarācijas • Saites starp personām / firmām • Tieši minētās saites – radi, darījumi • Netiešās saites – kopīgas firmas, utml

  7. Galvenie apstrādes posmi • Teksta iegūšana un attīrīšana • Morfoloģiskā un sintaktiskā analīze • Entītiju noteikšana • Personas, vietas, uzņēmumi, datumi, utml • Semantisko lomu anotēšana • Faktu ‘attīrīšana’ un apkopošana • Koreferences, entītiju daudznozīmība

  8. Semantisko lomu anotēšana • Situācijas un ‘izsaucošais’ vārds • Apakškoki (frāzes), kas izsaka lomas • Entītiju nosaukumi un veidi

  9. Semantisko lomu anotēšana

  10. Semantikas reprezentācija • Vienkāršots modelis šim lietojumam! • Entītiju datu bāze– nosaukumi un tips • Personas • Uzņēmumi • Amati, vietas, profesijas u.c. klasifikatori • Situāciju ‘predikāti’ ( ~20 gab.) • Pamatlomām atbilstošās entītijas • Fakta avots un datums

  11. Metodes • Morfoloģija, entītiju noteikšana • Mašīnmācīti klasifikatori – CRF, CMM • Sintakse • Parseri – gramatikas likumi vai statistika • Semantisko lomu anotēšana • Attiecības starp entītijām (klasifikatori) • Atslēgvārdi un ‘slot-filling’ • Heiristikas • Semi-supervised metodes

  12. Projekta pielietojumi • Komerciālais mērķis – personu un firmu profili • Pētnieciskā žurnālistika un izmeklēšana • Semantikas pētījumi valodniecībā – kā praksē cilvēki apraksta šīs situācijas • Sociālo tīklu analīze – nevis «paziņotās» saites kādā weblapā, bet de facto saites starp cilvēkiem; gan mūsdienās, gan vēsturiski aprakstītajiem.

  13. Citi potenciālie pielietojumi • Faktu datu bāzes iepriekšdefinētā ontoloģijā • Šis ziņu projekts • Wikipedia / DBPedia • Vispārīgas ‘common sense’ zināšanu kopas • Zināšanu bāzes iegūšana ‘iemācoties vikipēdiju’ • Nepārraudzītās metodes, jēdzienu grupēšana • Semantiska meklēšana zināšanu bāzēs • Medicīnas u.c. zinātnisko rakstu analīze • Lielo firmu iekšējie zināšanu dati

  14. Publikācijas • Paikens P., Auzina I., Garkaje G., Paegle M. Towards named entity annotation of Latvian National Library corpus. Proceedings of the Fifth International Conference on Human Language Technologies — The Baltic Perspective, Tartu, 2012. • Gruzitis N., Paikens P., Barzdins G. FrameNet Resource Grammar Library for GF. Controlled Natural Language, Proceedings of Third International Workshop, CNL 2012, Springer Berlin Heidelberg, 2012. • Paikens P., Grūzītis N. An implementation of a Latvian resource grammar in Grammatical Framework. Proceedings of the Eighth international conference on Language Resources and Evaluation (LREC 2012), Istanbul, 2012. • Pretkalniņa L., Paikens P., Grūzītis N., Rituma L., Spektors A. Making Historical Latvian Texts More Intelligible to Contemporary Readers. Proceedings of the workshop “Adaptation of Language Resources and Tools for Processing Cultural Heritage Objects” the Eight International Conference on Language Resources and Evaluation (LREC'12), Istanbul, 2012 • Paikens P. Lexicon-Based Morphological Analysis of Latvian Language. Publicēts Proceedings of the 3rd Baltic Conference on Human Language Technologies (HLT 2007), Kaunas, October, 2007. • Paikens P., Pretkalniņa L., Rituma L. Morphological analysis with limited resources: Latvian example (sagatavots, iesniegts recenzēšanai)

  15. Paldies par uzmanību! Jautājumi?

More Related