150 likes | 293 Views
CUCWeb: un corpus català construït a partir de la Web. Toni Badia. Esquema. equips motivació constitució del corpus explotació del corpus arquitectura notes finals. Equips implicats en el projecte. GLICOM - Grup de Lingüística Computacional, UPF
E N D
CUCWeb: un corpus català construït a partir de la Web Toni Badia
Esquema • equips • motivació • constitució del corpus • explotació del corpus • arquitectura • notes finals
Equips implicats en el projecte • GLICOM - Grup de Lingüística Computacional, UPF • Toni Badia, Gemma Boleda, Stefan Bott • Càtedra Telefònica – UPF • M. Eugenia Fuenmayor, Bárbara Poblete, Carlos Castillo, Ricardo Baeza-Yates, Vicente López • confluència d’interessos entre els dos grups: • partíem d’estudi empíric de les propietats de la Web espanyola: • posar en marxa una arquitectura per a extreure parts de la Web • estudiar les propietats formals de la Web, en termes de pàgines, llocs, I dominis (dimensió, tipus de software usat, llengües…) • muntar un corpus de l’ús del català a la web
motivació (1) • factors que determinen el valor de un corpus lingüístic • dimensió • hi ha aspectes d’una llengua que només poden ser observats en corpus grans • por exemple: • l’observació de correlacions estadístiques en els usos d’un mot al costat d’altres • origen dels textos • determina la representativitat del corpus: quin tipus de llengua representa el corpus • marcatge (o informació complementària associada als textos o als mots dels textos) • determina la informació que se pot obtenir d’un corpus
motivació (2) • 2 menes de marcatge dels corpus lingüístics: • marcatge extern • consisteix en especificar per a cada text del corpus els atributs que el caracteritzen, com: • autor • lloc de publicació • data • marcatge lingüístic • consisteix en associar a cada mot del corpus informació sobre les seves propietats lingüístiques: • de quina paraula es tracta • propietats morfològiques, sintàctiques...
fragment de text amb marcatge lingüístic • La fi de la guerra va suposar la fi de la lluita contra el règim la el Det AFS DN> fi fi Nom N5-6S CD_Subj de de Prep P <NA La el Det AFS DN> guerra guerra Nom N5-FS <P va anar Verb VDR3S- VAux> suposar suposar Verb VI---- VPrin la el Det AFS DN> fi fi Nom N5-6S CD_Subj de de Prep P <NA la el Det AFS DN> lluita lluita Nom N5-FS <P contra contra Prep P <NA_Advl el el Det AMS DN> règim règim Nom N5-MS <P
motivació (4) • objectius de la creació del CUCWeb • oferir un corpus gran del català • el més gran, de moment • la web permet obtenir corpus realment grans amb costos relativament petits • oferir el corpus amb informació lingüística bàsica, útil per a persones interessades en aspectes concrets de la llengua: • lingüistes • lexicògrafs • professors i mestres • sociòlegs i sociolingüistes • oferir un corpus de llengua real, representatiu de la llengua habitual
constitució del corpus (1) • ha estat creat seguint els passos següents: • recopilació de les pàgines de la web espanyola • selecció de les pàgines en català, a través d’un detector de llengua (que distingia entre les 11 llengües més presents a Internet) • filtre “lingüístic” (a partir del diccionari català de GLiCom) • eliminació de duplicats (aprox. 20%) • marcatge lingüístic automàtic (CatCG) • conversió a formato consultable amb un cercador (CQP) • preparació d’una interfície web de consulta de corpus
constitució del corpus (2) • 1r pas: extreure la part de la Web relacionada amb l’Estat Espanyol • inicialment: només es van extreure les pàgines del domini .es • finalment: les pàgines web del domini .es i les que tenen una adreça IP localitzada físicament a l’estat • Procediment: • ús d’un software comercial de recollida automàtica de pàgines web • inici: la llista d’URLs de www.buscopio.net • extracció recursiva d’enllaços a partir de les pàgines baixades • resultats • 16 milions de pàgines web • més de 300,000 llocs web • 118,000 dominis • Dificultats trobades en aquest estadi (=> duplicats) • diverses formes de spam • miralls
constitució del corpus (3) • 2n pas: extracció del fragment català del corpus recollit (4 steps) • pas 2.1: classificació per llengua • entrenat un classificador estadístic Naïve Bayes • detecció de les 4 llengües oficial: espanyol, català, gallec i basc • detecció de les altres 6 llengües més freqüents a la Web: anglès, alemany, francès, italià, portuguès, i holandès • rebutjat el 38% del contingut (per tenir massa poc text) • Finalment
constitució del corpus (4) • pas 2.2: filtrat lingüístic • més interès en la qualitat de les dades, que no plena cobertura de la web • ús d’un diccionari en format electrònic i d’algunes heurístiques per excloure documents sense valor lingüístic • pas 2.3: filtrat de duplicats • filtre de duplicats molt simple: les pàgines web amb un contingut molt similar van ser tractades com a duplicats
constitució del corpus (5) • 3r pas: anotació i indexació del corpus • anotació lingüística amb CatCG • etiquetes morfosintàctiques i de funció sintàctica superficial • indexació amb el WorkBench de l’ IMS (Stuttgart) • 4t pas: construcció de la interfície web per a consultes on-line
explotació del corpus (1) • interfície web • usa les funcionalitats de Corpus Query Processor (CQP, de l’IMS) • dues interfícies web: • interfície per la cerca d’exemples • interfície estadística
explotació del corpus (2) • interfície per la cerca d’exemples • dos modes de cerca • mode simple: permet cercar mots, lemes o cadenes de mots. Es pot restringir la categoria morfològica o la funció sintàctica • mode expert: cerca en una finestra de fins a cinc elements, l’opcionalitat i la negació són possibles per a cada mot o la seva informació • interfície estadística • proporciona informació de freqüència sobre la cerca de l’usuari • la freqüència es pot calcular respecte de qualsevol dels 4 nivells d’anotació • mot • lema • categoria morfosintàctica • funció sintàctica
notes finals • CUCWeb és el resultat d’una arquitectura general per a la recollida de corpus • en 6 mesos un equip de sis persones (a temps parcial) va poder construir un corpus de prop de 200M de mots del català a la Web • el corpus pot ser consultat per tothom a través d’una interfície web fàcil d’usar, que explota moltes de les funcionalitats de CQP • feina immediata: • millorar la interfície • incloure-hi altres menes de corpus • Accés al corpus: www.catedratelefonica.upf.es/cucweb