410 likes | 523 Views
Irene Russo – Tommaso Caselli ILC – CNR Pisa {irene.russo@ilc.cnr.it; tommaso.caselli@ilc.cnr.it}. Indicatori sintagmatici per l’identificazione dei nomi eventivi in italiano. Eventualità, Temporalità, Testualità – Pavia, 19 novembre 2009. Introduzione. Cosa è un nome eventivo?
E N D
Irene Russo – Tommaso Caselli ILC – CNR Pisa {irene.russo@ilc.cnr.it; tommaso.caselli@ilc.cnr.it} Indicatori sintagmatici per l’identificazione dei nomi eventivi in italiano Eventualità, Temporalità, Testualità – Pavia, 19 novembre 2009
Introduzione Cosa è un nome eventivo? Precedenti analisi dei nomi eventivi (Grimshaw 1990, Zucchi 1993) si sono concentrate sulle nominalizzazioni La nozione di nome eventivo può essere ritenuta un concetto scalare (Simone, 2008) Quali fattori possono determinare un buon grado di eventività in un nome, a parte i fattori morfologici? Misura di eventivà che dipende da fattori sintagmatici
Sommario Difficoltà teoriche Analisi dei dati da corpus per definire le ipotesi teoriche Misura di eventività basata sulle occorrenze di patterns sintagmatici in un corpus Valutazione della validità della misura tramite il confronto con le intuizioni dei parlanti e le risorse lessicografiche
Nomi d’ evento e derivazione morfologica La derivazione morfologica è un fattore decisivo per l’ identificazione di un nome d’ evento Nomi eventivi derivati da verbi, come traduzione, sono semanticamente ambigui (azione/evento vs. risultato) (Bisetto & Melloni 2007) : 1a. La traduzione di questo testo è piena di errori. 1b. Molte traduzioni sono piene di errori. 2. La traduzione è sul tavolo.
Nomi d’ evento e derivazione morfologica • Schieramento • 1 lo spiegare truppe o forze di polizia [EVENT] • 2 un serie di elementi schierati o disposti secondo certi criteri [HUMAN GROUP] Apertura • 1 l'aprire qualcosa • 2 passaggio aperto, varco • 3 confronto e collaborazione tra forze politiche e individui di idee diverse
Ruolo degli indicatori sintagmatici Già secondo Grimshaw (1990) per la caratterizzazione delle nominalizzazioni le occorrenze sintagmatiche sono indicatori utili per disambiguare tra un uso eventivo e un uso non-eventivo dello stesso nome: Processo: 3a. La costruzione del palazzo è durata due anni. Risultato: 3b. La costruzione è alta due piani.
Ruolo degli indicatori sintagmatici “There are certain nouns that are not verb derivatives, yet behave like nominalised verbs; that is, they can enter container contexts without suggesting suppressed nominals. Fires and blizzards, unlike tables, crystals, or cows, can occur, begin, and end, can be sudden or prolonged, can be watched and observed – they are, in a word, events and not objects.” (Vendler 1967: 141)
Ruolo degli indicatori sintagmatici 4a. I rarely attend beer festivals. (BNC) 4b. He wished to attend a workshop in Hawaii. (BNC) Le analisi semantiche tradizionali (Gross and Kiefer, 1995) sfruttano un numero limitato di test basati sulla occorrenza con peculiari verbi aspettuali, aggettivi, avverbi o preposizioni temporali: 5a. The frequent trips were a nuisance. 5b. The destruction of the city in only two days appalled every one. 5c. During the party, John left.
Ruolo degli indicatori sintagmatici Operalizzazione di test diagnostici classici nell’ analisi dei dati dal corpus Rappresentazioni distribuite e contestualmente derivate basate sulle occorrenze sintagmatiche possono essere usate per l’ identificazione automatica di parole semanticamente simili e le distinzioni categoriche tra classi semantiche (Lin, 1998; Boleda et al. 2004)
Un problema di polisemia • Il livello di eventività di un nome deverbale potrebbe intuitivamente dipendere dal numero di sensi non eventivi codificati in una risorsa lessicografica
Un problema di polisemia Gli indicatori sintagmatici selezionati possono co-selezionare type semantici differenti (to conclude) (Rumshisky 2008) Terminare riunione, dibattito; capitolo, romanzo Raggiungere un accordo Accordo, contratto, tregua
Una metodologia per trovare le coercizioni Attraverso le occorrenze sintagmatiche è possibile trovare nomi comuni che sono coercizioni, ovvero assumono occasionalmente una lettura eventiva (Simone 2008): 6a. Ho comprato un regalo per Giovanni. 6b. Il regalo di un libro a Giovanni ha fatto parecchio effetto. Tali coercizioni non sono causate solo dai verbi. Anche gli aggettivi possono avere un ruolo in questo fenomeno: 7a. Jane’s frequent illness lead to her dismissal. 7b. Video technology has made this a frequent topic of male sporting conversation. (BNC) 7c. Frequent trains run from London Victoria and Charing Cross. (BNC)
Una metodologia per trovare le coercizioni Gli aggettivi di frequenza come frequente, occasionale e annuale vengono interpretati, in semantica formale (Schäfer, 2007), come quantificazioni su realizzazioni di tipi di eventi. Di consequenza, possono evidenziare coercizioni di semplici nomi comuni che diventano espressioni eventive complesse: 8. Agent Cooper likes an occasional cup of coffee.
Perché una misura di eventività? Confrontare l’ evidenza sintagmatica con i giudizi dei parlanti per proporre una misura di eventività per i nomi. “The extent to which a given word ‘is’ something becomes a statistical question and of secondary interest. The interesting questions will be the semantic spectrum of a word and what happens in the grammar if it receives a given attribute or attributes.” (Bolinger 1969: 38).
Identicazione degli indicatori sintagmatici • Esplorazione di corpus : Italian Treebank (Montemagni et al. 2003) 305K tokens • Estrazione dei nomi più frequenti • Connessione a una risorsa lessicale basata sulla teoria del Lessico Generativo - (SIMPLE/CLIPS) • Estrazione dei nomi dal data set dei più frequenti che hanno almeno un tipo semantico che corrisponde a EVENT nella risorsa
Identicazione degli indicatori sintagmatici • Corpus study: La Repubblica (Baroni et al.2004 ) 308 milioni di tokens • Estrazione di 4 patterns: NOME – VERBO (SUB); VERBO – NOME (D.O); AGG. – NOME; NOME – AGG. • Identificazione di verbi e aggettivi ad alta frequenza VERBI (≥ 800) - AGGETTIVI (≥ 1000) • Analisi degli argomenti selezionati: solo i verbi e gli aggettivi che hanno come loro argomento un EVENTO sono stati selezionati come indicatori sintagmatici • 76 syntagmatic cues: 37 verbi and 39 aggettivi
Identicazione degli indicatori sintagmatici • Corpus exploration : Italian Treebank (Montemagni et al. 2003) 305K tokens • Extraction of the most frequent nouns • Connection to a GL-based lexical resource (SIMPLE/CLIPS) • Extraction of those nouns which have at least one semantic type equals to EVENT • Corpus study: La Repubblica (Baroni et al.2004 ) 308 million tokens • Extraction 4 patterns: NOUN – VERB (SUB); VERB – NOUN (D.O); ADJ – NOUN; NOUN – ADJ • Identification of highly frequent VERBS (≥ 800) and ADJECTIVES (≥ 1000) • Analysis of the argument selection: only those verbs and adjectives which have an EVENT as their arguements have been elected as syntagmatic cues • 76 syntagmatic cues: 37 verbs and 39 adjectives
Quanto sono rilevanti gli indicatori sintagmatici? • WORKING HYPOTHESIS: • I concetti teorici della semantica devono essere cognitivamente plausibili (Pustejovsky 1995) • Nozione di priming (Hoey 2005): • “every word is mentally primed for collocational use and our knowledge of it includes its cooccurrences features” → Specifici indicatori sintagmatici, statisticamente rilevanti, determinano la percezione del grado di eventività di un nome • Correlazioni statische tra: • frequenze normalizzate delle occorrenze con indicatori sintagmatici E • Giudizi dei parlanti sull’ eventitvà dei nomi • risorse lessicali (ItalWordNet e dizionario De Mauro)
Test sugli indicatori sintagmatici Dati: 200 nomi dall’ Italian TreeBank • Due parametri per la selezione: • nominalizzazioni marcate morfologicamente vs. nominalizzazioni non marcate: costruzione, frenata, avvio, disegno • I nomi morfologici sono stati selezioni tenendo in considerazione la produttività dei suffissi (Gaeta, 2004) • Nomi non derivati: barone, guerra...
Test sugli indicatori sintagmatici • Dal corpus La Repubblica: • frequenza di occorrenza dei nomi con i 76 indicatori sintagmatici • frequenza complessiva di ogni nome somma delle frequenza di co-occorrenza dei nomi con i 76 cue sintagmatici Frequenza normalizzata come misura di eventività: Frequenza globale del nome nel corpus La Repubblica
Test sugli indicatori sintagmatici • Analisi preliminare delle frequenze normalizzate per 200 nomi: • i dati supportano l’ esistenza di un continuum per i nomi eventivi • distribuzione variegata dei nomi lungo il continuum in tre gruppi: (i.) non eventivi, (ii.)fuzzy, (iii.)eventivi • il polo eventivo è composto da: • Nomi puramente eventivi: pestaggio, sconfitta, avvio. • Dot types del tipo [EVENT ● NOT_EVENT] – 45/88 (51.13%): dichiarazione, incremento.
Test sugli indicatori sintagmatici 7 soggetti, alcuni con competenze linguistiche • Per ogni nome nel test data I soggetti dovevano classificare il nome su una scala da 1 a 5 dove: • 1 = il nome non è mai un evento • 5 = il nome è sempre un evento NESSUNA fase di addestramento. Ai soggetti è stato fornito un breve manule con esempi. Test si è svolto n modalità remota attraverso l’uso della mail.
Test sugli indicatori sintagmatici 7 soggetti, alcuni con competenze linguistiche • For each noun in the test data the subjects had to classify the noun on a scale ranging from 1 – 5 where: • 1 = the noun is never an event • 5 = the noun is always an event NO training phase. Manual + examples and use of e-mails to submit the test.
Test sugli indicatori sintagmatici • Uso di due risorse lessicografiche: • ItalWordNet (IWN) • Dizionario De Mauro • Estrazione delle letture eventive dei nomi nel test data: • IWN: uso della struttura interna sfruttando relazioni semantiche di iperonimia. Hypernyms = nodo EVENT • Dizionario De Mauro: uso di espressioni chiave come “l'atto di -X”, “il processo di -X”, “lo stato di -X” .. the process of X”
Test sugli indicatori sintagmatici • Uso di due risorse lessicografiche: • ItalWordNet (IWN) • Dizionario De Mauro L'eventività di un nome è stata calcolata come di seguito: # di letture eventive in IWN + # di letture eventive nel Dizionario # di sensi in IWN + # di sensi nel Dizionario De Mauro
Test sugli indicatori sintagmatici • Uso di due risorse lessicografiche: • ItalWordNet (IWN) • Dizionario De Mauro • Estrazione delle letture eventive dei nomi nel test data: • IWN: uso della struttura interna sfruttando relazioni semantiche di iperonimia. Hypernyms = nodo EVENT • Dizionario De Mauro: uso di espressioni chiave come “l'atto di -X”, “il processo di -X”, “lo stato di -X” .. the process of X” L'eventività di un nome è stata calcolata come di seguito: # di letture eventive in IWN + # di letture eventive nel Dizionario # di sensi in IWN + # di sensi nel Dizionario De Mauro
Test sugli indicatori sintagmatici elevata correlazione con i giudizi dei parlanti i giudizi dei parlanti hanno una correlazione maggiore con i nomi non derivati morfologicamente (.542) Buona correlazione con le risorse lessicali MA meno rilevante per via dell’ incompletezza e/o dei sensi eventivi poco frequenti
Identificazione di una soglia di eventività Sulla base delle analisi presentate, una misura di eventività basata sulle frequenze normalizzate è stata individuata Eventività ≥ 0.01 • Quanto è affidabile questa misura? • Può essere utilizzata per annotare automaticamente nomi d’ evento in corpus?
Test sulla misura di eventività • Esperimento di annotazione su un corpus di italiano • 149 articoli da quotidiani (Italian TreeBank e PAROLE) • 63.397 tokens • 18.308 tokens etichettati come nomi 6 annotatori – studenti di linguistica computazionale Annotazione sulla base delle TimeML specifications (Pustejovsky et al 2003) adattate per l’ italiano
Test sulla misura di eventività • 4369 nomi (tokens) sono stati annotati come eventi • Annotation performance: • P&R = 0.87 • kappa = 0.86 • Creazione di 2 stop-word lists da SIMPLE/CLIPS: • Nomi sempre eventivi: nomi appartenenti al tipo semantico PHENOMENON • Nomi mai eventivi: nomi appartenenti ai tipi semantici TIME e AMOUNT
Lemmatizzazione dei nomi nel corpus: 811 lemmi non annotati (nomi non eventivi) 485 lemmi annotati come eventivi e sui quali gli annotatori sono in accordo (nomi eventivi) 78 lemmi sui quali gli annotatori sono in disaccordo (disagreement) Test sulla misura di eventività Calcolo della frequenza normalizzata per ogni lemma e uso della misura se la frequenza normalizzata è uguale o superiore a 0.01 allora considera il nome come un EVENTO
Test sulla misura di eventività • Lemmatizzazione dei nomi nel corpus: • 811 lemmi non annotati (nomi non eventivi) • 485 lemmi annotati come eventivi e sui quali gli annotatori sono in accordo (nomi eventivi) • 78 lemmi sui quali gli annotatori sono in disaccordo (disagreement) Calcolo della frequenza normalizzata per ogni lemma e uso della misura se la frequenza normalizzata è uguale o superiore a 0.01 allora considera il nome come un EVENTO
Test sulla misura di eventività • l’ esistenza di un verbo corrispondente è rilevante • gli aggettivi sono più salienti per via della loro frequenza • i nomi rispetto ai quali c’è disaccordo sono sempre sopra la soglia di eventività, quindi potrebbero essere tutti dot types
Conclusioni e questioni aperte Identificazione di una soglia affidabile di eventività (EVENTIVITY MEASURE) per i nomi • Doppio ruolo della misura di eventività: • L’ appartenenza di un elemento lessicale ad una classe semantica è una questione di grado continuum di eventività • La misura di eventività può essere utilizzata per scoprire coercizioni e dot types • Applicazioni pratiche: misura statistica per annotare automaticamente i corpora
Conclusioni e questioni aperte Quale è il ruolo della morfologia? Dovrebbe essere utilizzata come una caratteristicarilevante nella misura di eventività? E’ possibile elaborare uno schema dei tipi di coercizioni attestate, basato sui dati? Quale è il ruolo degli aggettivi? Quale è la relazione tra la loro frequenza più elevata e il loro ruolo nelle coercizioni?
Bibliografia • - M. Baroni, Bernardini S., Comastri F., Piccioni L., Volpi A., Aston G., and Mazzoleni M. 2004. Introducing • the “la Repubblica” corpus: A large, annotated, TEI(XML)-compliant corpus of newspaper italian. In Proceedings • of the Fourth International conference on Language Resources and Evaluation (LREC-04). • T. Boleda, G.and Badia and E. Batlle. 2004. Acquisition of semantic classes for adjectives from distributional • evidence. In Proceedings of Coling 2004, pages 1119–1125. • H. de Swart. 1998. Aspect shift and coercion. Natural Language and Linguistic Theory, 16(2):347–385. • L. Gaeta. 2004. Nomi d’ azione. In M. Grossmann and Rainer F., editors, La formazione delle parole in • italiano, pages 314–351. Niemeyer, Tubingen. • J. Grimshaw. 1990. Argument Structure. MIT Press, Cambridge, Massachusetts. • G. Gross and F. Kiefer. 1995. La structure événementielle des substantifs. Folia Linguistica, 29(1-2):45–65. • M. Hoey. 2005. Lexical Priming: A new theory of words and language. Routledge, London. • D. Lin. 1998. Automatic retrieval and clustering of similar words. In Proceedings of the 36th Annual • Meeting of the Association for Computational Linguistics, pages 768–774, Montreal, Quebec, Canada. • Association for Computational Linguistics. • J. Meinschaefer. 2005. Event-oriented adjectives and the semantics of deverbal nouns in germanic and • romance: The role of boundedness and the mass/count distinction. In A. M. Thornton and Grossmann M., • editors, La formazione delle parole, pages 355-368. Bulzoni.
L. A. Michaelis. 2004. Type shifting in construction grammar: An integrated approach to aspectual coercion. • Cognitive Linguistics, 15:1–67. • S. Montemagni, F. Barsotti, M. Battista, N. Calzolari, O. Corazzar, A. Lenci, V. Pirelli, A. Zampolli, F. Fanciulli, M. • Massetani, R. Raffaelli, R. Basili, M. T. Pazienza, D. Saracino, F. Zanzotto, N. Mana, F. Pianesi, and R. • Delmonte. 2003. The syntacticsemantic treebank of italian. an overview. Linguistica Computazionale, • Computational Linguistics in Pisa, special Issue, XVIII-XIX:461–93. • P. Pantel and M. Pennacchiotti. 2006. Espresso: Leveraging generic patterns for automatically harvesting • semantic relations. In Proceedings of the 21st International Conference on Computational Linguistics and 44° • Annual Meeting of the Association for Computational Linguistics, pages 113–120, Sydney, Australia, July. • Association for Computational Linguistics. • J. Pustejovsky and P. Bouillon. 2004. On the proper role of coercion in semantic typing. In Proceedings of the • 15th International Conference on Computational Linguistics (COLING-94), pages 706–711. • J Pustejovsky and E. Jezek. 2008. Semantic coercion in language: Beyond distributional analysis. Italian • Journal of Linguistics - special issue Distributional Models of the Lexicon in Linguistics and Cognitive • Science, 20(1). • J. Pustejovsky, J. Castao, R. Ingria, R. Saurì, R. Gaizauskas, A. Setzer, and G. Katz. 2003. Timeml: Robust • specification of event and temporal expressions in text. In Fifth International Workshop on Computational • Semantics (IWCS-5). • J. Pustejovsky. 1995. The Generative Lexicon. MIT Press.
N. Ruimy, M. Monachini, E. Gola, N. Calzolari, M.C. Del Fiorentino, M. Ulivieri, and S. Rossi. 2003. A • computational semantic lexicon of italian: SIMPLE. Linguistica Computazionale, Computational • Linguistics in Pisa, special Issue, XVIIIXIX: 821–64. • A. Rumshimsky, V. Grinberg, and J. Pustejovsky. 2007. Detecting selectional behaviour of complex types in text. • In Proceedings of the 4th International Workshop on Generative Approaches to the Lexicon, 10-11 May, Paris. • R. Schäfer. 2007. On frequency adjectives. In E. Puig Waldmuller, editor, Proceedings of Sinn und Bedeutung • 11, pages 555–567, Barcelona. Universitat Pompeu Fabra. • R. Simone. 2008. Coefficienti verbali nei nomi. In P.M. Bertinetto, editor, Il verbo. Atti del Congresso annuale • della SIG – Societ`a Italiana di Glottologia. • Z. Vendler, 1967. Linguistics in Philosophy, chapter 4. Cornell University Press, Ithaca, NY. • A. Zucchi. 1993. The Language of Propositions and Events. Kluwer Academic Publishers, Dordrecht.