1 / 36

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER. Corpora e contesti Concordanze Collocazioni. CITAZIONI. You taught me language, and my profit on’t Is, I know not how to curse: the red plague rid you For LEARNING me your language

herve
Download Presentation

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni

  2. CITAZIONI You taught me language, and my profit on’t Is, I know not how to curse: the red plague rid you For LEARNING me your language Citazione da The Tempest in Johnson’s Dictionary

  3. Due usi di contesti nella lessicografia • Per determinare conoscenze lessicali nel senso discusso nelle due lezioni precedenti • Classe grammaticale, accezioni •  CONCORDANZE • Per identificare aspetti ‘collocazionali’ •  COLLOCAZIONI

  4. CONCORDANZE • In Pinocchio, la forma BUONO occorre 11 volte. • Domande che si pone un lessicografo: • Quali parti del discorso? • Quali sensi? • Usati in quali contesti? • Soluzione: le CONCORDANZE

  5. CONCORDANZE CONCORDANZA = forma + contesto 1   1,    1    |    uomini, sono stati e sono o repubbliche o principati. È principati 2   2,    1    |    indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3   5,    2    |  assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4   8,    1    |    dove si trattassi delle repubbliche. Questi sono quando, o per 5  12,    3   |     vede a' principi soli e repubbliche armate fare progressi grandissimi, 6  13,    6   | Alessandro Magno, e come molte repubbliche e principi si sono armati 7  15,    1   |       molti si sono immaginati repubbliche e principati che non si

  6. STRUMENTI INFORMATICI PER LA RICERCA DICONCORDANZE • Esistono oggi moltissimi strumenti che permettono di eseguire il tipo di analisi appena visto automaticamente • Esempi: • WORDSMITH distribuito da ICAME (a pagamento) • TextSTAT (gratis) • WORDSKETCH (a pagamento)

  7. TextSTAT • Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin • Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD • Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html

  8. TextSTAT

  9. CONCORDANZE: FORME DIVERSE DI CONTESTO e le colonne e i simulacri e l’ERMEch’abbella agli occhi tuoi quest’ERMO lido,Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affannoSempre caro mi fu quest’ERMO colle,l’ERMA terra contemplo, e di fanciullade’ tuoi steli abbellir l’ERME contrade ERME Torri, I 2ERMO lido, IV 4ERMA sede, VI 11 ERMA terrena sede, VIII 36ERMO colle, XII 1L’ERMA terra contemplo, XVI 63ERME contrade, XXXIV 8

  10. COMBINAZIONI DI PAROLE E COLLOCAZIONI • “You can tell a word from the company it keeps” (Firth, 1957) • La competenza lessicale non consiste solo di conoscenza sintattica, morfologica, e semantica • Ma anche di conoscenza in parte arbitraria su quali parole si combinano di preferenza

  11. Restrizioni sulle combinazioni di parole • Ordine • *Il maglione che righe a indossi, *dormire il letto • Restrizioni concettuali • ?? Il letto e’ corso a casa • Restrizioni lessicali • Francese: crescere = grandir (persone), pousser (piante) • Tedesco: mangiare = essen (persone), fressen (animali)

  12. Restrizioni lessicali • The tall boy (*the high boy) • Mantenere un segreto (? Conservare un segreto)

  13. COLLOCAZIONI • In lessicografia si distingue tradizionalmente tra `normali’ restrizioni lessicali e COLLOCAZIONI

  14. Collocazioni • Pioggia battente (?? Pioggia intensa) • Stendere un documento (? Scrivere un documento) • Lanciare un messaggio

  15. Intuizione: • In queste combinazioni di parole, stendere, battente, lanciare (i COLLOCATI) sono ‘scelti’ dalle BASI (documento, pioggia, messaggio) per esprimere un significato che non hanno quando usati con altre parole • ‘Meaning by collocation’, Firth 1957

  16. Definizione di collocazione • Una collocazione e’una combinazione di parole soggetta ad una restrizione lessicale per la scelta di una parola (il COLLOCATO) e’ condizionata da una seconda parola (la BASE)

  17. Importanza delle collocazioni • A livello avanzato di conoscenza della lingua straniera, le collocazioni fanno la differenza • Italiano lavarsi i denti = • Inglese brush one’s teeth (spazzolare) • = Tedesco sich Die Zaehne putzen (pulirsi)

  18. VERBI SUPPORTO (= WEAK VERBS) • Un caso particolare di collocazioni della forma VERBO + NOME in cui la base (il nome) determina il significato del collocato (il verbo) • Prendere una decisione, dare spiegazioni, fare una telefonata, essere in dubbio, avere paura • Il verbo ha un significato generico e spesso contribuisce solo il tempo

  19. LOCUZIONI od ESPRESSIONI IDIOMATICHE alzare il gomitotagliare la cordavuotare il saccomosca bianca Differenza fondamentale dalle costruzioni precedenti: il significato non e’ costruito dai costituenti

  20. RICERCA AUTOMATICA DI COLLOCAZIONI • Il termine ‘collocazione’ e’ usato in linguistica computazionale in senso piu’ lato per indicare tanto le restrizioni lessicali quanto le collocazioni vere e proprie quanto gli idiomi

  21. Dalla definizione alla ricerca • Non e’ facile definire il termine ‘collocazione’ in modo da poterne automatizzare la ricerca. Si trovano definizioni • Frequentista • Fraseologica • Criteri: • Definizione dev’essere UTILE dal punto di vista lessicografico • Dev’essere FACILE da OPERAZIONALIZZARE (e possibilmente, automatizzare)

  22. Definizione frequentista • Una collocazione e’ ogni combinazione di parole che occorre molto di frequente • Piu’ precisamente: ogni combinazione che occorre piu’ frequentemente di quanto non ci si aspettasse per caso • Problema: pura frequenza non implica interesse lessicografico • Ho mangiato, va’ a casa, cosa dire

  23. COLLOCATI PIU’ FREQUENTI DI ATTENZIONE

  24. Definizioni fraseologiche • Una collocazione e’ una co-occorrenza di parole soggetta ad una regola di restrizione (Melcuk & Wanner) • Troppo generale: esistono molti tipi di restrizioni

  25. ALLA RICERCA DI COLLOCAZIONI NEI CORPORA • I metodi per la ricerca automatica di collocazioni sfruttano una combinazione di informazioni: • FREQUENZA • Da sola pero’ non e’ sufficiente • INFORMAZIONI FRASEOLOGICHE • INDICAZIONI DI ‘DISTINZIONE’

  26. INFORMAZIONI FRASEOLOGICHE • Si utilizzano corpora in cui i token sono stati classificati grammaticalmente • Ci si concentra su alcune combinazioni sintattiche: • VERBO NOME • NOME AGGETTIVO • AGGETTIVO NOME

  27. Potenziali collocati di documento

  28. INDICAZIONI DI ‘IMPORTANZA’ • Una volta identificate le costruzioni piu’ frequenti, si cerca di stimare quali siano le costruzioni piu’ INTERESSANTI • Le costruzioni interessanti sono quelle che sembrano occorrere con una frequenza maggiore di quella che ci si aspetterebbe

  29. UN ESEMPIO DI INDICAZIONE DI IMPORTANZA • La MUTUAL INFORMATION e’ una misura che calcola il rapporto tra la PROBABILITA’ di incontrare due parole assieme con la probabilita’ di incontrarle individualmente • Intuizione: se la frequenza di occorrenza di due parole e’ piu’ alta di quel che ci si aspetterebbe, e’ possibile che costituiscano una collocazione

  30. MUTUAL INFORMATION

  31. ESEMPIO

  32. LE PAROLE CON MI PIU’ ALTA NEL WEBBIT

  33. Scelta tra potenziali candidati • Il passo successivo sarebbe identificare i candidati che • Esprimono restrizioni lessicali interessanti • Esprimono vere e proprie collocazioni (= in cui il collocato ha un significato inusuale) • Esprimono delle locuzioni (il significato non puo’ essere derivato dai componenti) • Questo passo dev’essere fatto a mano!

  34. Collocazioni e lessicografia • Che differenza c’e’ tra morbido e soffice? • Collocati di morbido: • panno, pelle, gomma, burro • Collocati di soffice: • erba, sabbia, treccia, superficie

  35. Letture • Jezek, capitolo 6 • Lenci Montemagni e Pirrelli, capitolo 7

  36. Per saperne di piu’ • Linguistica Applicata, Modulo B • (Da cui arrivano alcuni dei lucidi)

More Related