250 likes | 510 Views
ES valodu tehnoloģiju pētniecības projekti Latvijā. Andrejs Vasiļjevs, Tilde CLARIN seminārs Rīga, 26.02.2010. Valodas tehnoloģiju attīstības izaicinājumi Latvijā. Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām?
E N D
ES valodu tehnoloģiju pētniecības projekti Latvijā Andrejs Vasiļjevs, Tilde CLARIN seminārs Rīga, 26.02.2010
Valodas tehnoloģiju attīstības izaicinājumi Latvijā • Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām? • Kā nodrošināt pētniecībai nepieciešamos valodas resursus? • Kā sagatavot un piesaistīt datorlingvistikas speciālistus? • Kā nodrošināt pētniecībai un attīstībai nepieciešamo finansējumu? • Kā attīstīt sadarbību starp akadēmisko un uzņēmējdarbības vidi? • Kā pētījumu rezultātus pārvērst plaši lietotās tehnoloģijās un risinājumos? • Kā apgūt labāko pasaules pieredzi?
Datos balstītas mašīntulkošanas attīstība • Automātiska lingvistiskās informācijas izguve no liela apjoma paralēlo tekstu korpusiem ir efektīvs risinājums, kas aizstāj ilgstošu ekspertu darbu • Taču pašreizējo datos balstītu metožu lietojumu ierobežo pieejamais paralēlo tekstu apjoms • Valodām un nozarēm, kurām nav pieejami apjomīgi paralēlie korpusi, datos balstītu mašīntulkošanas sistēmu tulkošanas kvalitāte ir neapmierinoši zema
CLARA partneri • Bergenas universitāte • Tilde • Kārļa universitāte • Tūbingenas universitāte • Kopenhāgenas universitāte • Helsinku universitāte • PompeuFabra universitāte • Norvēģijas Ekonomikas un biznesa administrācijas augstskola • Maksa Planka institūts
Salīdzināmie korpusi • Teksta resursi divās vai vairāk valodās, kas nav tieši tulkojumi, taču ir ar līdzīgu saturu • Dokumentu kopa, kas savākta pēc noteiktiem kritērijiem (piem., līdzīga žanra vienas jomas teksti, kas radīti noteiktā laikposmā), divās vai vairāk valodās, kuru saturs lielākā vai mazākā mērā pārklājas • Piemēri: ziņas dažādās valodās, daudzvalodu tīmekļa lappuses, Wikipedia raksti u.c.
ACCURAT projekta valodas • Fokuss uz mazāk nodrošinātām valodām, tādām kā latviešu, lietuviešu, igauņu, grieķu, horvātu, rumāņu, slovēņu • Tulkošana no/uz lielajām valodām, piemēram, angļu-latviešu, angļu-horvātu, vācu-rumāņu • Mazāk pētīti mašīntulkošanas virzieni, piemēram, latviešu-lietuviešu, lietuviešu-rumāņu, rumāņu-grieķu
ACCURAT projektapartneri • Tilde (projekta koordinators) - Latvija • Šefīldas universitāte - Lielbritānija • Līdsas universitāte - Lielbritānija • Atēnu Informācijas, komunikāciju un zināšanu tehnoloģiju pētniecības un inovāciju centrs - Grieķija • Zagrebas universitāte - Horvātija • DFKI - Vācija • Rumānijas ZA Mākslīgā intelekta institūts - Rumānija • Linguatec - Vācija • Zemanta - Slovēnija
ACCURAT konsultatīvā padome • Latvijas Patentu birojs • Latvijas universitāte • Lokalizācijas industrijas standartu asociācija • Pēterburgas Hercena Valsts pedagoģiskā universitāte • Eiropas Komisijas Apvienotais pētniecības centrs • CLARIN konsorcijs
Sagaidāmie rezultāti • Salīdzināmības metrika un atbilstošie rīki • Salīdzināmais korpuss un tā vākšanas un apstrādes rīki • Metodes un rīki salīdzināmā korpusa sastatīšanai dažādos līmeņos • Metodes salīdzināmā korpusa lietojumam statistiskajā un likumbāzētajā mašīntulkošanā • Lietojuma scenāriji un praktiskā noderīguma novērtējums • Mašīntulkošanas kvalitātes uzlabošana latviešu un citām mazākām valodām un specializētām jomām
TTCTerminology extraction, translation tools and comparable corpora
EASTIN-CLCrosslingual and multimodal Search in a Portal for Support of Assisted Living
Kā virzīt valodas tehnoloģiju attīstību Latvijā • Sadarbība Latvijas līmenī • CLARIN Latvija • Latviešu valodas nacionālā korpusa iniciatīva • Sadarbība Baltijas līmenī • Baltijas HLT konference 2010 • Sadarbība Eiropas līmenī • FP7, CIP ICT-PSP, MarieCurie programmas • “Horizontālā” sadarbība starp pētniecības iestādēm, atmiņas institūcijām un uzņēmumiem • Valodu krasts