Large linguistically-processed Web corpora for multiple languages

Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese Large linguistically-processed Web corpora for multiple languages

Oppure si può ricorrere al crawling, processo che consente di selezionare e annotare i testi significativi. Essi verranno poi caricati in un software per l'interrogazione linguistica. Il web contiene una grande quantità di dati linguistici • Essi sono accessibili via motori di ricerca commerciali, i quali tuttavia presentano notevoli problemi.

Lo scopo del crawling Creare una risorsa bilanciata, contenente numerosi tipi di testo che corrispondono all'insieme presente nei corpora linguistici tradizionali. In aggiunta si avranno testi tratti dal Web. Questa operazione è stata fatta per il tedesco e l'italiano, i cui web corpora sono accessibili con Sketch Engine.

Come avviene il crawling – 1 • Si inizia con interrogare Google attraverso il suo API service cercando coppie casuali di parole. È stato notato infatti che una parola sola porta a pagine inadeguate (definizioni della parola nei vari dizionari, pagine di compagnie il cui nome contiene la parola). Più di due parole invece portano a liste e non a testi.

Si nota anche che coppie tratte da risorse scritte tradizionali (quotidiani, saggi) portano a pagine della sfera pubblica (quotidiani, siti accademici o governativi). Parole del vocabolario comune portano a pagine personali (blog, bollettini). Entrambi i tipi di pagine interessano il linguista, che quindi le inserirà nella sua ricerca. Come avviene il crawling - 2

Come avviene il crawling - 3 • Il processo di analisi vero e proprio avviene grazie a Heritrix crawler. Ad ogni coppia di parole vengono associate un massimo di 10 pagine, il cui suffisso non deve indicare dati non-HTML (.pdf, .jpeg ecc.). • Si ottiene così un primo archivio di dati, di dimensioni considerevoli.

Il filtering • Attraverso un processo di filtering vengono selezionati documenti in base alla dimensione (tra 5KB e 200KB) e alla presenza di duplicati. Sono infatti escluse sia le copie sia gli originali poiché si tratta di solito di testi quasi del tutto privi di interesse linguistico.

Filtering: boilerplate stripping, function word e pornography filtering • Il boilerplate stripping elimina quelle sezioni dei documenti che non contengono materiale linguistico (HTML markup, javascript..). • Vengono selezionati testi con un'alta percentuale di function words (per il tedesco un minimo di 10 types e 30 tokens). • Il pornography filtering esclude quei testi che hanno un'alta percentuale di parole utilizzate in pornografia. Questo unicamente perché presentano elementi linguisticamente problematici.

POS e lemmatizzazione • Per questa operazione si usa TreeTagger. Il corpus per il tedesco così ottenuto contiene 2.13 miliardi di parole. • Si effettua un'ultima pulitura, eliminando grazie alle annotazioni quelle parti di testo in cui il POS è inusuale. Va ricordato inoltre che TreeTagger non è allenato per testi provenienti dal Web, le sue prestazioni sono quindi piuttosto negative.

Indicizzazione, interfaccia user friendly e confronto • Una buona indicizzazione e un'interfaccia user friendly sono fondamentali per la consultazione del corpus. • Il confronto con un corpus preesistente permette di capire l'effettiva validità del Web corpus e notare le differenze tra l'uno e l'altro in termini di parole.

Conclusioni – 1 • Questi passaggi hanno permesso di creare Web corpora molto grandi per il tedesco e l'italiano. • Il filtering ha eliminato i problemi che presentava il Web come risorsa per la ricerca linguistica.

Conclusioni - 2 • Il confronto con un newswire corpus ha dato buoni risultati in termini di bilanciamento. • I Web corpora sono accessibili con strumenti per l'interrogazione che supportano ricerche linguistiche dettagliate.

Large linguistically-processed Web corpora for multiple languages

Large linguistically-processed Web corpora for multiple languages

Presentation Transcript

Web Design Languages

Author-Topic Models for Large Text Corpora

VIRTUAL KEYBOARD For Multiple Languages

Automatic phonetic transcription of large speech corpora

A Multiple- Trace-Based -Proposal for Linguistically Unconditioned Variability

Corpora for all

Constructing Parallel Corpora for Six Indian Languages via Crowdsourcing

Web Corpora

Languages for Semantic Web

Languages for the Semantic Web

C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages

Dublin Core in Multiple Languages

Large Models for Large Corpora: preliminary findings

Literate programming with multiple languages

Languages for Dynamic Web Documents

Corpora by Web Services

Languages in WEB

Issues: Large Corpora

GC – Integrated Web Environment for Corpora Linguistics

The multiple USPs of languages

Understanding Text Corpora with Multiple Facets

Languages in WEB