200 likes | 378 Views
CorpEus - EusBila. Igor Leturia Elhuyar Fundazioa - I+G saila IEB 2007/05/10. Euskara hizkuntza txikia, hiztun nahiz baliabidetan Hizkuntza-teknologietan are gehiago nabaritzen da hori Oinarrizko hainbat baliabide eta zerbitzu ez ditugu, edo ez beste hizkuntzen mailan. Sarrera.
E N D
CorpEus - EusBila Igor Leturia Elhuyar Fundazioa - I+G saila IEB 2007/05/10
Euskara hizkuntza txikia, hiztun nahiz baliabidetan Hizkuntza-teknologietan are gehiago nabaritzen da hori Oinarrizko hainbat baliabide eta zerbitzu ez ditugu, edo ez beste hizkuntzen mailan Sarrera
Bi adibide argi: Corpusak: euskarazkoak gutxi eta txikiak Interneteko bilatzaileak: euskarazko dokumentuetan bilatzeko aukerarik ez Horiek emendatzen laguntzera: CorpEus, amarauna euskarazko corpus erraldoi gisa kontsultatzeko tresna EusBila, euskarazko bilatzailea Sarrera
Corpusak: testu-bildumak, formatu digitalean eta linguistikoki etiketatuta Edozein hizkuntzentzat beharrezkoak Hizkuntz teknologiak garatzeko Hiztegiak egiteko Normalizazioa aurreko erabileran oinarritzeko ... CorpEus
Elhuyarren urte batzuk corpusgintzan Corpusgile Zientzia eta Teknologiaren Corpusa Baina corpusak egitea oso garestia Bestalde, hor dago internet Testu-bilduma formatu digitalean Nahiz eta linguistikoki etiketatu gabea CorpEus
CorpEus internet euskarazko corpus erraldoi gisa erabiltzeko tresna da Hitz bat (edo batzuk) emanda, hitzak amaraunean dituen agerpenen kopuruak eta testuinguruak erakusten ditu CorpEus
Dauden tresnak: WebConc WebCorp Euskararekin betiko bi arazoak: Lematizazioa Euskarazko testuak ez bereiztea ("anorexia", "sulfuroso", "politekniko", "byte", "allegro", hitz laburrak, izen bereziak...) Konponbidea: Sorkuntza morfologikoa Euskarazko filtro-hitzak CorpEus
Funtzionamendua: Bilatzaileei galdetu esandakoak aplikatuz Bilatzaileek emandako orriak jaitsi Bilagaiaren eta bere deklinazioen agerpenak erakutsi (KWIC), euskarazko testuinguru baten badaude (LangId) Agerpenen analisi posibleak erakutsi Kopuruak erakutsi Dena paraleloan CorpEus
Ezaugarriak: Forma nahiz lema bidezko bilaketa Euskarazko orrietan soilik bilatu Bilatzaileen APIak erabili Dokumentu motak: HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS Emaitzak faktore askoren arabera ordenatu Aldaerak eta ez estandarrak ere bilatu Zehaztasuna edo estaldura aukeran Testuinguruak, analisiak eta kopuruak CorpEus
Maiatzean aurkezteko Demoa CorpEus
Abantailak: Corpus ikaragarri handia Etengabe eguneratua Testu formatuduna, ez testu hutsa Eduki pertsonal asko, kolokialagoa, ahozkotik hurbilagoa CorpEus
Desabantailak: Linguistikoki etiketatu gabea, beti ziurgabetasun zerbait ("pilotari" adibidez) Errebisatu gabeko asko, kalitate txarragokoa edo akastunagoa Dena ezin ikusi, bilatzaileek itzultzen dituzten lehen emaitzak soilik Bilatzaileekiko menpekotasuna: Kopuruetan, ordenean, aldaketetan Mantsoagoa (orriak jaitsi behar direlako) CorpEus
Interneteko bilatzaileak: hitz bat emanda, interneten momentuan begiratu eta hitza agertzen den dokumentuak bueltatu Bilatzaile nagusiei hizkuntza baten dauden dokumentuak soilik eska dakieke, baina euskarazkoak ez EusBila euskarazko bilatzaile bat da EusBila
Ohiko bilatzaileak: Google, Yahoo, Microsoft Euskararekin betiko bi arazoak: Lematizazioa Euskarazko testuak ez bereiztea ("anorexia", "katu", "sexua", "Britney Spears", hitz laburrak...) EusBila
Alternatibak: Lehen AllTheWeb Euskararekin arazoak: Lematizazioa Lehen Aurki Euskararekin arazoak: Lematizazioa izartxoen bidez "konponduta" Eskuzko mantenimenduaren lana Exalead Euskararekin arazoak: Lematizazioa izartxoen bidez "konponduta" Euskarazko testuak ez bereiztea EusBila
Alternatibak: Aurki Euskararekin arazoak: Lematizazioa Eskuzko mantenimenduaren lana Eskuzko mantenimenduagatiko akatsak: www.euskadi.net-eko gaztelaniazkoak agertu www.elrincondelvago.com-eko euskarazkoak ez EusBila
Funtzionamendua: Bilatzaileei galdetu sorkuntza morfologikoa eta euskarazko filtro-hitzak aplikatuz Bilatzaileek emandako testuinguruak euskarazkoak diren ikusi (LangId) eta hala bada erakutsi EusBila
Ezaugarriak: Forma nahiz lema bidezko bilaketa Euskarazko orrietan soilik bilatu Bilatzaileen APIak erabili Aldaerak eta ez estandarrak ere bilatu Zehaztasuna edo estaldura hobetsi daiteke EusBila
Elekak kaleratzekoa APIen erabilera mugatuaren arazoa Demoa EusBila
Web 2.0: APIak Web zerbitzuak Baliabide horiek gurea bezalako hizkuntza txiki baten mesedetan erabil ditzakegu eta erabili behar ditugu Ondorioak