130 likes | 150 Views
LEXIKOAREN BEHATOKIA ERATZEKO PROPOSAMENA. Aurkezpena. Egitasmoaren oinarrizko ideiak Corpusa osatzeko irizpideak Corpusa lantzeko prozesua eta tresnak Corpusaren azterketa. Egitasmoaren oinarrizko ideiak. Hiztegi Batuko Lantaldearen proposamena da
E N D
Aurkezpena • Egitasmoaren oinarrizko ideiak • Corpusa osatzeko irizpideak • Corpusa lantzeko prozesua eta tresnak • Corpusaren azterketa
Egitasmoaren oinarrizko ideiak • Hiztegi Batuko Lantaldearen proposamena da • Prosa arruntezko corpus monitore bat prestatzea proposatzen da, bereziki hedabideetakoa • Lexikoaren erabileraren azterketak egiteko • Lexikoari dagozkion arauak eta gomendioak dokumentatzea da azken helburua Hizkuntza denborarekin nola aldatzen ari den erakusten du. Etengabe elikatzen da.
Corpusgintzaren eredu orokorra • Corpusa osatzeko irizpideak • Testuen bilketa • Etiketatzea • Egitura-etiketatzea • Etiketatze linguistikoa • Corpusaren analisia
Corpusa osatzeko irizpideak (I) • Erreferentziazko corpus handi, orekatu, lematizatu, linguistikoki etiketatu eta eskuz zuzendua da ideala, baina denbora eta diru asko kostatzen da • Epe luzerako ideal horretarantz abiatu eta bide batez epe laburrean lanari etekina ateratzeko, corpus oportunista bat elikatu eta automatikoki lantzea da arrazoizkoena Kostu handirik gabe eta erraz landu daitezkeen testu guztiak bilduz osatzen da. Erreferentziazko corpusa osatzen ez den bitartean, haren ordezkoa da.
Corpusa osatzeko irizpideak (II) • 2000. urtetik aurrera sortutako testuz osatua izango da • Testu espezializatuak edo hizkuntzaren erabilera berezia dutenak salbu beste guztiak onargarriak izango dira • Eskuragarritasuna eta automatikoki lantzeko erraztasuna izango dira osterantzean testuak hobesteko irizpideak • Etengabe elikatuko da
Corpusa osatzeko irizpideak (III) • Hedabideak • interes orokorrekoak • jakintza-eremuetakoak (literatura, zuzenbidea, erlijioa, zientzia, teknologia, artea, kirola, etab.). Ez espezializazio-mailan • Administrazioetako hizkera 'soziala' • Corpusak • Ereduzko Prosa gaur • -Zientzia eta Teknologiaren Corpusa • Sareko bisitatuenak (erabili.com, sustatu.com, bizkaie.biz) • Literaturaren klasikoak • Pentsamenduaren klasikoak
Corpusa osatzeko irizpideak (IV) Testu-iturriak
Corpusa lantzeko prozesua eta tresnak Testu-bilketa Testu-biltegia (corpus gordina) Testuak Egitura-etiketatzea Formatu-bihurketa + Egitura-etiketatze automatikoa TEI goiburua Corpusa I (automatikoki landua) Etiketatze linguistikoa Prozesatze linguistiko automatikoa Corpusa II (zuzendua eta desanbiguatua) HBL Eskuzko zuzenketa eta desanbiguazioa Irteera Corpusa kontsultatzeko, analizatzeko eta ustiatzeko tresnak Emaitzak
Testuak kodetzeko estandarra. Paragrafoak, aipuak, arrotz-hitzak, puntuen erabilera, etab. markatzeko. Etiketatzea • Eredua: TEI P4 (XML) • Egitura • Egitura-elementu nagusiak • Formatu-ezaugarri esanguratsuak • Analisi linguistikoa • Lema • Kategoria • Azpikategoria • Kasua
Aurreprozesamendu linguistikoa • Ortografia-zuzentzaileaz baliatuz: • Aldaeren normalizazioa: <reg> • Akats ortotipografikoak zuzentzea: <corr> • Eskuz balioetsi • Lexikoiosagarria lema berriekin elikatu, hala badagokio • Lerro-bukaerako marratxoen tratamendua euskara vs euskerea euskara vs euskars
Analisi linguistikoa • Prozesatze-urratsak (automatikoak) • Tokenizazioa • Segmentazio morfologikoa • Analisi morfosintaktikoa • Hitz anitzeko unitateen analisia • Lematizazioa • Desanbiguazioa: interpretazio okerrak kendu • Automatikoa lematizazio-urratsean Testu-hitzak osatzen dituzten karaktere-segidak identifikatzea. Tokenak morfematan zatitzea.
Testu analizatua Sarrera-testua Analisi linguistikoa EHUko Informatika Fakultateko IXA taldeak garatutako tresnak ondo dokumentatu eta kontrastatuak dira. Tokenizazioa Segmentazioa Hitz anitzeko unitate lexikalak Tratamendu morfosintaktikoa HAULen tratamendua Lematizazioa