1 / 20

CorpEus - EusBila

CorpEus - EusBila. Igor Leturia Elhuyar Fundazioa - I+G saila IEB 2007/05/10. Euskara hizkuntza txikia, hiztun nahiz baliabidetan Hizkuntza-teknologietan are gehiago nabaritzen da hori Oinarrizko hainbat baliabide eta zerbitzu ez ditugu, edo ez beste hizkuntzen mailan. Sarrera.

aysel
Download Presentation

CorpEus - EusBila

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CorpEus - EusBila Igor Leturia Elhuyar Fundazioa - I+G saila IEB 2007/05/10

  2. Euskara hizkuntza txikia, hiztun nahiz baliabidetan Hizkuntza-teknologietan are gehiago nabaritzen da hori Oinarrizko hainbat baliabide eta zerbitzu ez ditugu, edo ez beste hizkuntzen mailan Sarrera

  3. Bi adibide argi: Corpusak: euskarazkoak gutxi eta txikiak Interneteko bilatzaileak: euskarazko dokumentuetan bilatzeko aukerarik ez Horiek emendatzen laguntzera: CorpEus, amarauna euskarazko corpus erraldoi gisa kontsultatzeko tresna EusBila, euskarazko bilatzailea Sarrera

  4. Corpusak: testu-bildumak, formatu digitalean eta linguistikoki etiketatuta Edozein hizkuntzentzat beharrezkoak Hizkuntz teknologiak garatzeko Hiztegiak egiteko Normalizazioa aurreko erabileran oinarritzeko ... CorpEus

  5. Elhuyarren urte batzuk corpusgintzan Corpusgile Zientzia eta Teknologiaren Corpusa Baina corpusak egitea oso garestia Bestalde, hor dago internet Testu-bilduma formatu digitalean Nahiz eta linguistikoki etiketatu gabea CorpEus

  6. CorpEus internet euskarazko corpus erraldoi gisa erabiltzeko tresna da Hitz bat (edo batzuk) emanda, hitzak amaraunean dituen agerpenen kopuruak eta testuinguruak erakusten ditu CorpEus

  7. Dauden tresnak: WebConc WebCorp Euskararekin betiko bi arazoak: Lematizazioa Euskarazko testuak ez bereiztea ("anorexia", "sulfuroso", "politekniko", "byte", "allegro", hitz laburrak, izen bereziak...) Konponbidea: Sorkuntza morfologikoa Euskarazko filtro-hitzak CorpEus

  8. Funtzionamendua: Bilatzaileei galdetu esandakoak aplikatuz Bilatzaileek emandako orriak jaitsi Bilagaiaren eta bere deklinazioen agerpenak erakutsi (KWIC), euskarazko testuinguru baten badaude (LangId) Agerpenen analisi posibleak erakutsi Kopuruak erakutsi Dena paraleloan CorpEus

  9. Ezaugarriak: Forma nahiz lema bidezko bilaketa Euskarazko orrietan soilik bilatu Bilatzaileen APIak erabili Dokumentu motak: HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS Emaitzak faktore askoren arabera ordenatu Aldaerak eta ez estandarrak ere bilatu Zehaztasuna edo estaldura aukeran Testuinguruak, analisiak eta kopuruak CorpEus

  10. Maiatzean aurkezteko Demoa CorpEus

  11. Abantailak: Corpus ikaragarri handia Etengabe eguneratua Testu formatuduna, ez testu hutsa Eduki pertsonal asko, kolokialagoa, ahozkotik hurbilagoa CorpEus

  12. Desabantailak: Linguistikoki etiketatu gabea, beti ziurgabetasun zerbait ("pilotari" adibidez) Errebisatu gabeko asko, kalitate txarragokoa edo akastunagoa Dena ezin ikusi, bilatzaileek itzultzen dituzten lehen emaitzak soilik Bilatzaileekiko menpekotasuna: Kopuruetan, ordenean, aldaketetan Mantsoagoa (orriak jaitsi behar direlako) CorpEus

  13. Interneteko bilatzaileak: hitz bat emanda, interneten momentuan begiratu eta hitza agertzen den dokumentuak bueltatu Bilatzaile nagusiei hizkuntza baten dauden dokumentuak soilik eska dakieke, baina euskarazkoak ez EusBila euskarazko bilatzaile bat da EusBila

  14. Ohiko bilatzaileak: Google, Yahoo, Microsoft Euskararekin betiko bi arazoak: Lematizazioa Euskarazko testuak ez bereiztea ("anorexia", "katu", "sexua", "Britney Spears", hitz laburrak...) EusBila

  15. Alternatibak: Lehen AllTheWeb Euskararekin arazoak: Lematizazioa Lehen Aurki Euskararekin arazoak: Lematizazioa izartxoen bidez "konponduta" Eskuzko mantenimenduaren lana Exalead Euskararekin arazoak: Lematizazioa izartxoen bidez "konponduta" Euskarazko testuak ez bereiztea EusBila

  16. Alternatibak: Aurki Euskararekin arazoak: Lematizazioa Eskuzko mantenimenduaren lana Eskuzko mantenimenduagatiko akatsak: www.euskadi.net-eko gaztelaniazkoak agertu www.elrincondelvago.com-eko euskarazkoak ez EusBila

  17. Funtzionamendua: Bilatzaileei galdetu sorkuntza morfologikoa eta euskarazko filtro-hitzak aplikatuz Bilatzaileek emandako testuinguruak euskarazkoak diren ikusi (LangId) eta hala bada erakutsi EusBila

  18. Ezaugarriak: Forma nahiz lema bidezko bilaketa Euskarazko orrietan soilik bilatu Bilatzaileen APIak erabili Aldaerak eta ez estandarrak ere bilatu Zehaztasuna edo estaldura hobetsi daiteke EusBila

  19. Elekak kaleratzekoa APIen erabilera mugatuaren arazoa Demoa EusBila

  20. Web 2.0: APIak Web zerbitzuak Baliabide horiek gurea bezalako hizkuntza txiki baten mesedetan erabil ditzakegu eta erabili behar ditugu Ondorioak

More Related