1 / 15

CUCWeb: un corpus català construït a partir de la Web

CUCWeb: un corpus català construït a partir de la Web. Toni Badia. Esquema. equips motivació constitució del corpus explotació del corpus arquitectura notes finals. Equips implicats en el projecte. GLICOM - Grup de Lingüística Computacional, UPF

brandy
Download Presentation

CUCWeb: un corpus català construït a partir de la Web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CUCWeb: un corpus català construït a partir de la Web Toni Badia

  2. Esquema • equips • motivació • constitució del corpus • explotació del corpus • arquitectura • notes finals

  3. Equips implicats en el projecte • GLICOM - Grup de Lingüística Computacional, UPF • Toni Badia, Gemma Boleda, Stefan Bott • Càtedra Telefònica – UPF • M. Eugenia Fuenmayor, Bárbara Poblete, Carlos Castillo, Ricardo Baeza-Yates, Vicente López • confluència d’interessos entre els dos grups: • partíem d’estudi empíric de les propietats de la Web espanyola: • posar en marxa una arquitectura per a extreure parts de la Web • estudiar les propietats formals de la Web, en termes de pàgines, llocs, I dominis (dimensió, tipus de software usat, llengües…) • muntar un corpus de l’ús del català a la web

  4. motivació (1) • factors que determinen el valor de un corpus lingüístic • dimensió • hi ha aspectes d’una llengua que només poden ser observats en corpus grans • por exemple: • l’observació de correlacions estadístiques en els usos d’un mot al costat d’altres • origen dels textos • determina la representativitat del corpus: quin tipus de llengua representa el corpus • marcatge (o informació complementària associada als textos o als mots dels textos) • determina la informació que se pot obtenir d’un corpus

  5. motivació (2) • 2 menes de marcatge dels corpus lingüístics: • marcatge extern • consisteix en especificar per a cada text del corpus els atributs que el caracteritzen, com: • autor • lloc de publicació • data • marcatge lingüístic • consisteix en associar a cada mot del corpus informació sobre les seves propietats lingüístiques: • de quina paraula es tracta • propietats morfològiques, sintàctiques...

  6. fragment de text amb marcatge lingüístic • La fi de la guerra va suposar la fi de la lluita contra el règim la el Det AFS DN> fi fi Nom N5-6S CD_Subj de de Prep P <NA La el Det AFS DN> guerra guerra Nom N5-FS <P va anar Verb VDR3S- VAux> suposar suposar Verb VI---- VPrin la el Det AFS DN> fi fi Nom N5-6S CD_Subj de de Prep P <NA la el Det AFS DN> lluita lluita Nom N5-FS <P contra contra Prep P <NA_Advl el el Det AMS DN> règim règim Nom N5-MS <P

  7. motivació (4) • objectius de la creació del CUCWeb • oferir un corpus gran del català • el més gran, de moment • la web permet obtenir corpus realment grans amb costos relativament petits • oferir el corpus amb informació lingüística bàsica, útil per a persones interessades en aspectes concrets de la llengua: • lingüistes • lexicògrafs • professors i mestres • sociòlegs i sociolingüistes • oferir un corpus de llengua real, representatiu de la llengua habitual

  8. constitució del corpus (1) • ha estat creat seguint els passos següents: • recopilació de les pàgines de la web espanyola • selecció de les pàgines en català, a través d’un detector de llengua (que distingia entre les 11 llengües més presents a Internet) • filtre “lingüístic” (a partir del diccionari català de GLiCom) • eliminació de duplicats (aprox. 20%) • marcatge lingüístic automàtic (CatCG) • conversió a formato consultable amb un cercador (CQP) • preparació d’una interfície web de consulta de corpus

  9. constitució del corpus (2) • 1r pas: extreure la part de la Web relacionada amb l’Estat Espanyol • inicialment: només es van extreure les pàgines del domini .es • finalment: les pàgines web del domini .es i les que tenen una adreça IP localitzada físicament a l’estat • Procediment: • ús d’un software comercial de recollida automàtica de pàgines web • inici: la llista d’URLs de www.buscopio.net • extracció recursiva d’enllaços a partir de les pàgines baixades • resultats • 16 milions de pàgines web • més de 300,000 llocs web • 118,000 dominis • Dificultats trobades en aquest estadi (=> duplicats) • diverses formes de spam • miralls

  10. constitució del corpus (3) • 2n pas: extracció del fragment català del corpus recollit (4 steps) • pas 2.1: classificació per llengua • entrenat un classificador estadístic Naïve Bayes • detecció de les 4 llengües oficial: espanyol, català, gallec i basc • detecció de les altres 6 llengües més freqüents a la Web: anglès, alemany, francès, italià, portuguès, i holandès • rebutjat el 38% del contingut (per tenir massa poc text) • Finalment

  11. constitució del corpus (4) • pas 2.2: filtrat lingüístic • més interès en la qualitat de les dades, que no plena cobertura de la web • ús d’un diccionari en format electrònic i d’algunes heurístiques per excloure documents sense valor lingüístic • pas 2.3: filtrat de duplicats • filtre de duplicats molt simple: les pàgines web amb un contingut molt similar van ser tractades com a duplicats

  12. constitució del corpus (5) • 3r pas: anotació i indexació del corpus • anotació lingüística amb CatCG • etiquetes morfosintàctiques i de funció sintàctica superficial • indexació amb el WorkBench de l’ IMS (Stuttgart) • 4t pas: construcció de la interfície web per a consultes on-line

  13. explotació del corpus (1) • interfície web • usa les funcionalitats de Corpus Query Processor (CQP, de l’IMS) • dues interfícies web: • interfície per la cerca d’exemples • interfície estadística

  14. explotació del corpus (2) • interfície per la cerca d’exemples • dos modes de cerca • mode simple: permet cercar mots, lemes o cadenes de mots. Es pot restringir la categoria morfològica o la funció sintàctica • mode expert: cerca en una finestra de fins a cinc elements, l’opcionalitat i la negació són possibles per a cada mot o la seva informació • interfície estadística • proporciona informació de freqüència sobre la cerca de l’usuari • la freqüència es pot calcular respecte de qualsevol dels 4 nivells d’anotació • mot • lema • categoria morfosintàctica • funció sintàctica

  15. notes finals • CUCWeb és el resultat d’una arquitectura general per a la recollida de corpus • en 6 mesos un equip de sis persones (a temps parcial) va poder construir un corpus de prop de 200M de mots del català a la Web • el corpus pot ser consultat per tothom a través d’una interfície web fàcil d’usar, que explota moltes de les funcionalitats de CQP • feina immediata: • millorar la interfície • incloure-hi altres menes de corpus • Accés al corpus: www.catedratelefonica.upf.es/cucweb

More Related