150 likes | 332 Views
Pēteris Paikens. Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs. Par mani. 2. kurss doktorantūrā Semantiskās informācijas ieguve no dabiskās valodas avotiem LU MII mākslīgā intelekta laboratorija: datorlingvistikas pētījumi un projekti
E N D
Pēteris Paikens Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs
Par mani • 2. kurss doktorantūrā Semantiskās informācijas ieguve no dabiskās valodas avotiem • LU MII mākslīgā intelekta laboratorija: datorlingvistikas pētījumi un projekti • Teksta automātiskas datorlingvistikas analīzes pētījums jauna informācijas arhīva produkta izstrādē (LETA) • Latviešu valodas atbalsta rīku izstrāde resursu atklāšanai (LNB)
Tēma Semantiskās informācijas ieguve no dabiskās valodas avotiem • Metodes tekstu priekšapstrādei • Semantikas reprezentācija • Iespējas automātiskai faktu ieguvei • Adaptācija «rūpnieciskam» lietojumam
Praktiskā problēma • Ir tekstā minēti fakti par cilvēkiem un organizācijām (web, avīzes, radio) • Cilvēki māk meklēt faktus (google u.c.) • Cilvēki māk apkopot atrastos faktus • ... bet tas nav mērogojams ... • Kā to darīt automātiski?
Praktiskā problēma - ilustrācija «Arī otra figūra Daimler lietā ir Bojāra ārštata padomnieks, un sens eksmēra draugs no armijas laikiem – Armands Zeihmanis.» Citāts no tvnet.lv raksta • Bojārs ↔ Zeihmanis: draugs, padomnieks • «Bojāra» → Gundars Bojārs, dz. 1967 • «eksmērs» = Bojārs (mērs 2001-2006)
Rezultāts • Publiskie fakti – «CV» • Ziņās minētais – karjera, izglītība, ģimene • Lursoft, amatpersonu deklarācijas • Saites starp personām / firmām • Tieši minētās saites – radi, darījumi • Netiešās saites – kopīgas firmas, utml
Galvenie apstrādes posmi • Teksta iegūšana un attīrīšana • Morfoloģiskā un sintaktiskā analīze • Entītiju noteikšana • Personas, vietas, uzņēmumi, datumi, utml • Semantisko lomu anotēšana • Faktu ‘attīrīšana’ un apkopošana • Koreferences, entītiju daudznozīmība
Semantisko lomu anotēšana • Situācijas un ‘izsaucošais’ vārds • Apakškoki (frāzes), kas izsaka lomas • Entītiju nosaukumi un veidi
Semantikas reprezentācija • Vienkāršots modelis šim lietojumam! • Entītiju datu bāze– nosaukumi un tips • Personas • Uzņēmumi • Amati, vietas, profesijas u.c. klasifikatori • Situāciju ‘predikāti’ ( ~20 gab.) • Pamatlomām atbilstošās entītijas • Fakta avots un datums
Metodes • Morfoloģija, entītiju noteikšana • Mašīnmācīti klasifikatori – CRF, CMM • Sintakse • Parseri – gramatikas likumi vai statistika • Semantisko lomu anotēšana • Attiecības starp entītijām (klasifikatori) • Atslēgvārdi un ‘slot-filling’ • Heiristikas • Semi-supervised metodes
Projekta pielietojumi • Komerciālais mērķis – personu un firmu profili • Pētnieciskā žurnālistika un izmeklēšana • Semantikas pētījumi valodniecībā – kā praksē cilvēki apraksta šīs situācijas • Sociālo tīklu analīze – nevis «paziņotās» saites kādā weblapā, bet de facto saites starp cilvēkiem; gan mūsdienās, gan vēsturiski aprakstītajiem.
Citi potenciālie pielietojumi • Faktu datu bāzes iepriekšdefinētā ontoloģijā • Šis ziņu projekts • Wikipedia / DBPedia • Vispārīgas ‘common sense’ zināšanu kopas • Zināšanu bāzes iegūšana ‘iemācoties vikipēdiju’ • Nepārraudzītās metodes, jēdzienu grupēšana • Semantiska meklēšana zināšanu bāzēs • Medicīnas u.c. zinātnisko rakstu analīze • Lielo firmu iekšējie zināšanu dati
Publikācijas • Paikens P., Auzina I., Garkaje G., Paegle M. Towards named entity annotation of Latvian National Library corpus. Proceedings of the Fifth International Conference on Human Language Technologies — The Baltic Perspective, Tartu, 2012. • Gruzitis N., Paikens P., Barzdins G. FrameNet Resource Grammar Library for GF. Controlled Natural Language, Proceedings of Third International Workshop, CNL 2012, Springer Berlin Heidelberg, 2012. • Paikens P., Grūzītis N. An implementation of a Latvian resource grammar in Grammatical Framework. Proceedings of the Eighth international conference on Language Resources and Evaluation (LREC 2012), Istanbul, 2012. • Pretkalniņa L., Paikens P., Grūzītis N., Rituma L., Spektors A. Making Historical Latvian Texts More Intelligible to Contemporary Readers. Proceedings of the workshop “Adaptation of Language Resources and Tools for Processing Cultural Heritage Objects” the Eight International Conference on Language Resources and Evaluation (LREC'12), Istanbul, 2012 • Paikens P. Lexicon-Based Morphological Analysis of Latvian Language. Publicēts Proceedings of the 3rd Baltic Conference on Human Language Technologies (HLT 2007), Kaunas, October, 2007. • Paikens P., Pretkalniņa L., Rituma L. Morphological analysis with limited resources: Latvian example (sagatavots, iesniegts recenzēšanai)
Paldies par uzmanību! Jautājumi?