360 likes | 494 Views
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER. Corpora e contesti Concordanze Collocazioni. CITAZIONI. You taught me language, and my profit on’t Is, I know not how to curse: the red plague rid you For LEARNING me your language
E N D
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni
CITAZIONI You taught me language, and my profit on’t Is, I know not how to curse: the red plague rid you For LEARNING me your language Citazione da The Tempest in Johnson’s Dictionary
Due usi di contesti nella lessicografia • Per determinare conoscenze lessicali nel senso discusso nelle due lezioni precedenti • Classe grammaticale, accezioni • CONCORDANZE • Per identificare aspetti ‘collocazionali’ • COLLOCAZIONI
CONCORDANZE • In Pinocchio, la forma BUONO occorre 11 volte. • Domande che si pone un lessicografo: • Quali parti del discorso? • Quali sensi? • Usati in quali contesti? • Soluzione: le CONCORDANZE
CONCORDANZE CONCORDANZA = forma + contesto 1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si
STRUMENTI INFORMATICI PER LA RICERCA DICONCORDANZE • Esistono oggi moltissimi strumenti che permettono di eseguire il tipo di analisi appena visto automaticamente • Esempi: • WORDSMITH distribuito da ICAME (a pagamento) • TextSTAT (gratis) • WORDSKETCH (a pagamento)
TextSTAT • Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin • Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD • Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html
CONCORDANZE: FORME DIVERSE DI CONTESTO e le colonne e i simulacri e l’ERMEch’abbella agli occhi tuoi quest’ERMO lido,Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affannoSempre caro mi fu quest’ERMO colle,l’ERMA terra contemplo, e di fanciullade’ tuoi steli abbellir l’ERME contrade ERME Torri, I 2ERMO lido, IV 4ERMA sede, VI 11 ERMA terrena sede, VIII 36ERMO colle, XII 1L’ERMA terra contemplo, XVI 63ERME contrade, XXXIV 8
COMBINAZIONI DI PAROLE E COLLOCAZIONI • “You can tell a word from the company it keeps” (Firth, 1957) • La competenza lessicale non consiste solo di conoscenza sintattica, morfologica, e semantica • Ma anche di conoscenza in parte arbitraria su quali parole si combinano di preferenza
Restrizioni sulle combinazioni di parole • Ordine • *Il maglione che righe a indossi, *dormire il letto • Restrizioni concettuali • ?? Il letto e’ corso a casa • Restrizioni lessicali • Francese: crescere = grandir (persone), pousser (piante) • Tedesco: mangiare = essen (persone), fressen (animali)
Restrizioni lessicali • The tall boy (*the high boy) • Mantenere un segreto (? Conservare un segreto)
COLLOCAZIONI • In lessicografia si distingue tradizionalmente tra `normali’ restrizioni lessicali e COLLOCAZIONI
Collocazioni • Pioggia battente (?? Pioggia intensa) • Stendere un documento (? Scrivere un documento) • Lanciare un messaggio
Intuizione: • In queste combinazioni di parole, stendere, battente, lanciare (i COLLOCATI) sono ‘scelti’ dalle BASI (documento, pioggia, messaggio) per esprimere un significato che non hanno quando usati con altre parole • ‘Meaning by collocation’, Firth 1957
Definizione di collocazione • Una collocazione e’una combinazione di parole soggetta ad una restrizione lessicale per la scelta di una parola (il COLLOCATO) e’ condizionata da una seconda parola (la BASE)
Importanza delle collocazioni • A livello avanzato di conoscenza della lingua straniera, le collocazioni fanno la differenza • Italiano lavarsi i denti = • Inglese brush one’s teeth (spazzolare) • = Tedesco sich Die Zaehne putzen (pulirsi)
VERBI SUPPORTO (= WEAK VERBS) • Un caso particolare di collocazioni della forma VERBO + NOME in cui la base (il nome) determina il significato del collocato (il verbo) • Prendere una decisione, dare spiegazioni, fare una telefonata, essere in dubbio, avere paura • Il verbo ha un significato generico e spesso contribuisce solo il tempo
LOCUZIONI od ESPRESSIONI IDIOMATICHE alzare il gomitotagliare la cordavuotare il saccomosca bianca Differenza fondamentale dalle costruzioni precedenti: il significato non e’ costruito dai costituenti
RICERCA AUTOMATICA DI COLLOCAZIONI • Il termine ‘collocazione’ e’ usato in linguistica computazionale in senso piu’ lato per indicare tanto le restrizioni lessicali quanto le collocazioni vere e proprie quanto gli idiomi
Dalla definizione alla ricerca • Non e’ facile definire il termine ‘collocazione’ in modo da poterne automatizzare la ricerca. Si trovano definizioni • Frequentista • Fraseologica • Criteri: • Definizione dev’essere UTILE dal punto di vista lessicografico • Dev’essere FACILE da OPERAZIONALIZZARE (e possibilmente, automatizzare)
Definizione frequentista • Una collocazione e’ ogni combinazione di parole che occorre molto di frequente • Piu’ precisamente: ogni combinazione che occorre piu’ frequentemente di quanto non ci si aspettasse per caso • Problema: pura frequenza non implica interesse lessicografico • Ho mangiato, va’ a casa, cosa dire
Definizioni fraseologiche • Una collocazione e’ una co-occorrenza di parole soggetta ad una regola di restrizione (Melcuk & Wanner) • Troppo generale: esistono molti tipi di restrizioni
ALLA RICERCA DI COLLOCAZIONI NEI CORPORA • I metodi per la ricerca automatica di collocazioni sfruttano una combinazione di informazioni: • FREQUENZA • Da sola pero’ non e’ sufficiente • INFORMAZIONI FRASEOLOGICHE • INDICAZIONI DI ‘DISTINZIONE’
INFORMAZIONI FRASEOLOGICHE • Si utilizzano corpora in cui i token sono stati classificati grammaticalmente • Ci si concentra su alcune combinazioni sintattiche: • VERBO NOME • NOME AGGETTIVO • AGGETTIVO NOME
INDICAZIONI DI ‘IMPORTANZA’ • Una volta identificate le costruzioni piu’ frequenti, si cerca di stimare quali siano le costruzioni piu’ INTERESSANTI • Le costruzioni interessanti sono quelle che sembrano occorrere con una frequenza maggiore di quella che ci si aspetterebbe
UN ESEMPIO DI INDICAZIONE DI IMPORTANZA • La MUTUAL INFORMATION e’ una misura che calcola il rapporto tra la PROBABILITA’ di incontrare due parole assieme con la probabilita’ di incontrarle individualmente • Intuizione: se la frequenza di occorrenza di due parole e’ piu’ alta di quel che ci si aspetterebbe, e’ possibile che costituiscano una collocazione
Scelta tra potenziali candidati • Il passo successivo sarebbe identificare i candidati che • Esprimono restrizioni lessicali interessanti • Esprimono vere e proprie collocazioni (= in cui il collocato ha un significato inusuale) • Esprimono delle locuzioni (il significato non puo’ essere derivato dai componenti) • Questo passo dev’essere fatto a mano!
Collocazioni e lessicografia • Che differenza c’e’ tra morbido e soffice? • Collocati di morbido: • panno, pelle, gomma, burro • Collocati di soffice: • erba, sabbia, treccia, superficie
Letture • Jezek, capitolo 6 • Lenci Montemagni e Pirrelli, capitolo 7
Per saperne di piu’ • Linguistica Applicata, Modulo B • (Da cui arrivano alcuni dei lucidi)