510 likes | 596 Views
Eventualità e relazioni temporali: riflessioni linguistiche, modelli computazionali e prototipi. Tommaso Caselli tommaso.caselli@ilc.cnr.it. Eventualità, Temporalità, Testualità - Pavia 19, Novembre 2009. Motivazioni.
E N D
Eventualità e relazioni temporali: riflessioni linguistiche, modelli computazionali e prototipi Tommaso Caselli tommaso.caselli@ilc.cnr.it Eventualità, Temporalità, Testualità - Pavia 19, Novembre 2009
Motivazioni Le entità linguistiche all’interno dei testi sono ancorate, per loro natura, al tempo. • “the particular conceptualization of temporality that underlies language is by no means obvious" [Steedman 1997: 897]. La comprensione e il trattamento del tempo all’interno del testo/discorso ha un ruolo importante: • per compiere delle inferenze e a ragionare sul mondo e sui suoi cambiamenti; • per migliorare la comprensione di numerosi fenomeni linguistici come la struttura del discorso e la risoluzione di anafore lessicali di tipo associativo; • per superare alcuni limiti delle applicazioni di TAL, nel nostro caso, algoritmi per Question-Answering (Open Domain e Domain Specific), Information Retrieval, Information Extraction, Summarization. Rinnovato interesse studio relazioni temporali tra gli eventi in un testo/discorso (creazione di corpora e schemi di annotazione, e.g. TimeML e TimeBank, Pustejovsky et al., 2003)
Sommario • Ontologia Temporale - eventualità e tempo: rappresentazione, formalizzazione e connessione • Relazioni temporali: definizione, contributo all’interpretazione del testo/discorso, fonti di informazione (triggers) • Teorie linguistiche e approcci computazionali per il trattamento della temporalità • A step forward: modello empirico per trattamento automatico della temporalità • Annotare la temporalità: TimeML, ISO-TimeML, It-TimeML
Eventualità • Eventualità: eventi e stati • eventi: entità dinamiche che descrivono cambiamenti nel mondo (veri, falsi, possibili, necessari …) • Stati: entità non-dinamiche che descrivono la validità di una data situazione per un periodo di tempo t Eterogeneità vs. Omogeneità (Krifka, 1989) • Ogni sottoparte dell’entità X NON è anche • una denotazione di X • Individuabili + Enumerabili • Relazioni merologiche Ogni sottoparte dell’entità X E’ ANCHE una denotazione di X
Eventualità • Eventualità: eventi e stati • eventi: entità dinamiche che descrivono cambiamenti nel mondo (veri, falsi, possibili, necessari …) • Stati: entità non-dinamiche che descrivono la validità di una data situazione per un periodo di tempo t Eterogeneità vs. Omogeneità (Krifka, 1989) • Eventi e Stati sono PRIMITIVI ONTOLOGICI • proprietà distintive e rappresentazioni logiche autonome • Evento: inizio e fine • Evento (e) • Stato (s)
Eventualità (2) Eterogeneità e proprietà merologiche possibilità di individuare sottoclassi di eventi [+/- durativo]: distanza tra punto iniziale e finale entità spazio-temporali N.B. NON ESISTONO EVENTI ISTANTANEI esplodere: ha punto iniziale e punto finale. • Eterogeneità e proprietà merologiche [+/- telicità] (Krifka, 1989) • Natural end point, quantized Marco è andato al negozio • Arbitrary end point, strictly cumulative Marco corre
Eventualità (3) Eventi = struttura tripartita (Moens-Steedman, 1988; Passonneau, 1988) Attività di -V arbitrario = atelico “naturale”/obbligatorio = telico
Eventualità (3) Eventi = struttura tripartita (Moens-Steedman, 1988; Passonneau, 1988) Attività di -V arbitrario = atelico “naturale”/obbligatorio = telico
Tempo & Entità Temporali Assioma direzionalità interna del tempo: se è vero che l’evento e ha avuto luogo nel Passato rispetto alla mia posizione attuale t, allora è vero che per qualsiasi altra mia posizione t’, e è nel Passato rispetto a t’ • Tempo: • Durata • Prospettiva temporale • Successione
Tempo & Entità Temporali (2) Le entità temporali a livello ontologico sono considerate “misure” speciali del tempo (fisico!) e che possono essere associate alle eventualità (ciò che accade o vale nel mondo). ISTANTI e INTERVALLI sono PRIMITIVI ontologici • Le entità temporali possono avere un inizio e una fine: • definizione di intervallo aperto, chiuso, semi-aperto • Intervallo proprio = intervallo chiuso, con punti iniziali e finali
Tempo & Entità Temporali (3) Tra i due primitivi sussistono delle relazioni esprimibili e formalizzate dal seguente predicato : Interno(t, T) ≡ Istante(t)۸Intervallo(T) Venerdi sera alle 20.00 Caratteristica distintiva dell’ontologia temporale è quella avere un ordinamento interno: Prima (T1, T2) corrisponde a una delle proprietà distintive del tempo Per ogni entità temporale T1, T2, se T1 precede T2, allora esistono due istanti t1 e t2, tali che t1 è l’istante finale di T1 e t2 è l’istante iniziale di T2, e t1 precede t2 • Relazione di precedenza è: • antiriflessiva • asimmetrica • transitiva
Tempo & Entità Temporali (4) La relazione di precedenza è primaria Relazioni tra intevalli
Tempo & Entità Temporali (4) La relazione di precedenza è primaria Relazioni tra istanti
Tempo & Entità Temporali (4) La relazione di precedenza è primaria Relazioni tra istanti e intervalli
Tempo & Entità Temporali (4) La relazione di precedenza è primaria • set chiuso di relazioni in grado di formalizzare tutte le possibili relazioni temporali tra due entità; • le relazioni sono “transitive”: questo permette di scoprire (inferire) relazioni possibili tra più entità (temporal closure); • si può imporre delle restrizioni sulle relazioni possibili tra due entità.
A < B & B < C A < C Tempo & Entità Temporali (4) La relazione di precedenza è primaria • set chiuso di relazioni in grado di formalizzare tutte le possibili relazioni temporali tra due entità; • le relazioni sono “transitive”: questo permette di scoprire (inferire) relazioni possibili tra più entità (temporal closure); • si può imporre delle restrizioni sulle relazioni possibili tra due entità.
Modellizzazione: connettere eventualità e tempo Connettere eventualità e tempo prima modellizzazione per l’analisi (formale) delle relazioni temporali tra le entità dell’ontologia temporale • definizione delle eventualità in logica temporale • funzioni α e ω assicurano l’accessibilità dei punti iniziali e finali delle eventualità: intervalli di rappresentazione sono finiti • Tempo è denso: tra 2 entità temporali è sempre possibile identificarne una terza • Linearità stretta del tempo (retta) • introduzione del predicato holds, meccanismo responsabile dell’ancoraggio temporale delle eventualità 13 relazioni temporali tra eventi durativi e tra intervalli (Allen, 1983) e 8 relazioni temporali tra eventi non-durativi ed eventi durativi e con entità temporali (evento non-durativo = assenza di punti/momenti interni) (Allen-Hayes, 1989); 5 relazioni tra istanti, 5 relazioni tra intervalli e istanti
Ordinamento Temporale Eventi: Teoria Relazione Temporale processo inferenziale che si attiva in base a precisi principi semantici e pragmatici NON è un’implicazione convenzionale di tipo pragmatico. • Relazione Temporale è il risultato della combinazione di informazioni contestuali e linguistiche: • è ottenuta a partire da un input pertinente e il cui processo di decodifica è arricchito con informazioni di tipo contestuale che danno vita a un effetto cognitivo positivo, contribuendo di fatto a determinare il contenuto informativo di un enunciato o frase; • è un’esplicatura, che esprime “explicitly communicated content” [Sperber-Wilson, 2004: 260].
Ordinamento Temporale Eventi: Teoria (2) • Relazioni Temporali sono stabili. • Tipologia di relazioni: • tra gli eventi e le espressioni temporali (temporal anchoring of events): -Marco è partitolunedì. • tra gli eventi all’interno del discorso (temporal ordering of events): -Gruppi di punk si sono barricati[ev1] iniziando il consueto lancio[ev2]di sassi e molotov. • tra due espressioni temporali: - Quando è stata Pasqualo scorso anno?
Ordinamento Temporale Eventi: Teoria (3) RELAZIONI TEMPORALI: ancoraggio & ordinamento • RELAZIONI TEMPORALI E LINGUA NATURALE: • elementi lessicali: - SEGNALATORI; e.g. dopo, prima di, a, per, entro… • elementi di sistema: - TEMPO VERBALE (tense): distinzione tra interpretazione assoluta (combinazione di E, R ed S) e nel testo (combinazione di E, R, S e A) - ASPETTO: - ASPETTO GRAMMATICALE (viewpoint) - ASPETTO LESSICALE • elementi pragmatici: - STRUTTURA DEL DISCORSO - CONOSCENZE DEL MONDO
Ordinamento Temporale Eventi: Teoria (3) RELAZIONI TEMPORALI: ancoraggio & ordinamento • RELAZIONI TEMPORALI E LINGUA NATURALE: • elementi lessicali: - SEGNALATORI; e.g. dopo, prima di, a, per, entro… • elementi di sistema: - TEMPO VERBALE (tense): distinzione tra interpretazione assoluta (combinazione di E, R ed S) e nel testo (combinazione di E, R, S e A) - ASPETTO: - ASPETTO GRAMMATICALE (viewpoint) - ASPETTO LESSICALE • elementi pragmatici: - STRUTTURA DEL DISCORSO - CONOSCENZE DEL MONDO
Ordinamento Temporale Eventi: Teoria (4) Ordinamento temporale eventi in un testo: • I quattro sono stati riconosciuti colpevoli[e1] di aver preparato[e2] ed eseguito[e3] l' attentato che il 26 febbraio del 1993fece esplodere[e4] una potentissima carica di esplosivo nel garage dei più alti grattacieli di New York. Anafora Temporale (Partee, 1984): tempi verbali hanno valore anaforico rispetto a un momento di riferimento (M.R.) precedente; le relazioni tra i vari momenti di riferimento sono responsabili dell’ordinamento temporale eventi
Ordinamento Temporale Eventi: Teoria (4) Ordinamento temporale eventi in un testo: • I quattro sono stati riconosciuti colpevoli[e1] di avereseguito[e3] e preparato[e2] l' attentato che il 26 febbraio del 1993fece esplodere[e4] una potentissima carica di esplosivo nel garage dei più alti grattacieli di New York. Limite Anafora Temporale: troppo affidamento su informazioni di tipo esclusivamente linguistico;
Ordinamento Temporale Eventi: Teoria (5) • Numerosi lavori hanno cercato di mettere in luce quali risorse o fonti di informazione sono attive quando inferiamo l’ordinamento temporale degli eventi, includendo: • avverbi temporali; • tempo verbale; • aspetto; • azionalità; • Assenza di un quadro completo sull’interazione tra questi elementi • principi discorsivi (struttura del discorso e relazioni retoriche); • convenzioni pragmatiche; • conoscenze comuni condivise. Punti fermi: • valore referenziale del tempo verbale; • i tempi verbali sono fonte di informazione primaria per il riconoscimento delle relazioni temporali; • contributo dell’informazione “contestuale”; • relazioni temporali sono inferenze prodotte dal parlante nel processo di incrementale di comprensione del discorso.
Il Modello Computazionale – Dati empirici • 2 esperimenti: • Esperimento 1: 29 soggetti (nessuno con conoscenze di linguistica); 52 coppie di frasi (33 estratte da un corpus + 19 variate) situazione sperimentale altamente controllata • Esperimento 2: 6 soggetti (studenti universitari in linguistica); 33 coppie di frasi; situazione sperimentale parzialmente controllata • TASK: • identificare la relazione temporale tra 2 eventi (verbali) messi in evidenza; 5 relazioni predefinite: PRECEDENZA, SUCCESSIONE, SIMULTANEITA’, SOVRAPPOSIZIONE (overlap), NESSUNA RELAZIONE • identificare la fonte di informazione ritenuta più saliente (responsabile del riconoscimento della relazione temporale); diversa granularità in base al background dei soggetti
Il Modello Computazionale – Dati empirici • 2 esperimenti: • Esperimento 1: 29 soggetti (nessuno con conoscenze di linguistica); 52 coppie di frasi (33 estratte da un corpus + 19 variate) situazione sperimentale altamente controllata • Esperimento 2: 6 soggetti (studenti universitari in linguistica); 33 coppie di frasi; situazione sperimentale parzialmente controllata • TASK: • identificare la relazione temporale tra 2 eventi (verbali) messi in evidenza; 5 relazioni predefinite: PRECEDENZA, SUCCESSIONE, SIMULTANEITA’, SOVRAPPOSIZIONE (overlap), NESSUNA RELAZIONE • identificare la fonte di informazione ritenuta più saliente (responsabile del riconoscimento della relazione temporale); diversa granularità in base al background dei soggetti • ESPERIMENTO 1: • TEMPO VERBALE • ESPRESSIONI DI TEMPO • NON SPECIFICATO
Il Modello Computazionale – Dati empirici • 2 esperimenti: • Esperimento 1: 29 soggetti (nessuno con conoscenze di linguistica); 52 coppie di frasi (33 estratte da un corpus + 19 variate) situazione sperimentale altamente controllata • Esperimento 2: 6 soggetti (studenti universitari in linguistica); 33 coppie di frasi; situazione sperimentale parzialmente controllata • ESPERIMENTO 2: • TEMPO VERBALE • ESPRESSIONI DI TEMPO • SEGNALATORI • ASPETTO (viewpoint) • SEMANTICA (aspetto lessicale + conoscenze del mondo) • NON SPECIFICATO • TASK: • identificare la relazione temporale tra 2 eventi (verbali) messi in evidenza; 5 relazioni predefinite: PRECEDENZA, SUCCESSIONE, SIMULTANEITA’, SOVRAPPOSIZIONE (overlap), NESSUNA RELAZIONE • identificare la fonte di informazione ritenuta più saliente (responsabile del riconoscimento della relazione temporale); diversa granularità in base al background dei soggetti
Il Modello Computazionale – Dati empirici(2) RICONOSCIMENTO RELAZIONI TEMPORALI: 0.49 < K < 0.58 • I dati empirici hanno messo in evidenza: • un aumento dell’accordo con: • espressioni di tempo (K = 0.69) • cambiamenti di tempo verbale “forte” (K = 0.80; K = 0.70) • segnalatori (K = 0.73) • uso di relazioni temporali a grana grossa, ottenute in base alla definizione di vicinanza concettuale (K = 0.25; K 0.36 vs. K = 0.65) • l’inversione dell’ordine di presentazione degli eventi non ha influenze sull’accordo e sul tipo di relazioni temporali, a meno che non esistano relazioni logiche tra gli eventi o siano presenti elementi altamente coesivi (anafore lessicale associative) in posizioni inaspettate • il riconoscimento di una struttura discorsiva è essenziale per riconoscere l’esistenza di una relazione temporale
Il Modello Computazionale – Dati empirici(3) POLISEMIA TEMPORALE ESPERIMENTO 1
Il Modello Computazionale – Dati empirici(3) POLISEMIA TEMPORALE ESPERIMENTO 2
Il Modello Computazionale – Dati empirici(4) SALIENZA FONTI INFORMAZIONE E “ORDINE APPLICAZIONE” ESPERIMENTO 1
Il Modello Computazionale – Dati empirici(4) SALIENZA FONTI INFORMAZIONE E “ORDINE APPLICAZIONE” ESPERIMENTO 1 ESPERIMENTO 2
Il Modello Computazionale – Dati empirici(4) SALIENZA FONTI INFORMAZIONE E “ORDINE APPLICAZIONE” ESPERIMENTO 2
Il Modello Computazionale – Dati empirici(5) SALIENZA FONTI INFORMAZIONE E “ORDINE APPLICAZIONE” • Espressioni di tempo, quando localizzano gli eventi, sono più salienti del tempo verbale • Il tempo verbale è più saliente solo in presenza di sequenze con tempi verbali diversi semantica temporale dei tempi verbali, e assenza di informazioni più specifiche • Aspetto più saliente in sequenze che coinvolgono l’imperfetto • Semantica: più saliente solo in sequenze con stesso tempo verbale • diversa tipologia di eventualità (evento - stato) ASPETTO LESSICALE • stessa tipologia di eventualità (evento - evento) FATTORI PRAGMATICI E CONOSCENZE DEL MONDO
Il Modello Computazionale – Dati empirici(6) • DIVERSA SALIENZA INFORMATIVA VARIE FONTI • restrizioni su autonomina delle varie fonti di informazione il riconoscimento • di relazioni temporali: • TEMPO VERBALE: fonte primaria; autonomo se sequenze temporali diverse; • ESPRESSIONI TEMPORALI: localizzatori ed essenziale se in relazione tra di loro • SEGNALATORI: se impliciti, informazione ancillare; se espliciti, essenziali • ASPETTO (viewpoint e aspetto lessicale): essenziali se gli eventi hanno • informazioni diverse • FORMULA ORDINE SALIENZA: • CONOSCENZA DEL MONDO (SEGNALATORI IMPLICITI TEMPO • ASPETTO ASPETTO LESSICALE ESPRESSIONI TEMPORALI • SEGNALATORI ESPLICITI)
Il Modello Computazionale – Architettura (2) • MODELLO BASATO SUI DATI EMPIRICI struttura del modello rispecchia la scala di salienza delle fonti di informazione • attivazione dei componenti responsabili del riconoscimento delle relazioni tra eventi basata su restrizioni e preferenze (componente per il tempo verbale modulo 3) • VARIABILITA’ DELLA GRANULARITA’ DELLE RELAZIONI TEMPORALI in base alle informazioni presenti nel testo/discorso e alla realizzazione delle eventualità • modello e funzionamento sono indipendenti da lingua specifica • composizione modulare garantisce sempre un output
Annotare la temporalità – schemi di annotazione • MUC7 (1998) • TIMEX (2000) • ACL WS on Temporal and Spatial Information Processing (2001) • Setzer’s Ph.D. Dissertation (2001) • TIDES: TIMEX2 v.1.01 –valutazione in ACE, (2001) • TERQAS: TimeML v.1.0 (2001) • LREC WS on Annotation Standards for Temporal Information in Natural Language (2002) • TimeML and DAML-Time (2003) • TERN evaluation (2004) • TimeML v.1.2.1 (2006) • ISO-TimeML – SemAf (2006 - ongoing) • It-TimeML v. 1.0 (2008)
Annotare la temporalità – TimeML, ISO-TimeML, It-TimeML TimeML & ISO-TimeML sono due linguaggi di annotazione in grado di rendere esplicita l’informazione temporale all’interno di un testo/discorso. • Vantaggi: • separazione netta per la rappresentazione di eventi e di espressioni temporali, proponendo metodi di classificazione indipendenti dalla lingua in analisi; • è in grado di rappresentare sia il temporal anchoring che l’event ordering Adattamento per l’Italiano It-TimeML (Caselli, 2008)
Annotare la temporalità – TimeML, ISO-TimeML, It-TimeML TimeML & ISO-TimeML sono due linguaggi di annotazione in grado di rendere esplicita l’informazione temporale all’interno di un testo/discorso. Modifiche per l’estensione dei tags EVENT e TIMEX3 • Vantaggi: • separazione netta per la rappresentazione di eventi e di espressioni temporali, proponendo metodi di classificazione indipendenti dalla lingua in analisi; • è in grado di rappresentare sia il temporal anchoring che l’event ordering • Adattamento dei valori per gli attributi TENSE e ASPECT; in particolare: • introduzione del valore IMPERFECT; • uso del valore PERFECTIVE sia per il compiuto che per l’aoristo Introduzione dell’attributo MOOD, per il trattamento del condizionale e del congiuntivo, e V_FORM, per dar conto delle diverse forme verbali • Mappatura delle classi di eventi con i tipi semantici di PARLE/SIMPLE/CLIPS: • miglioramento riconoscimento di eventi e loro classificazione; • introduzione di un layer semantico di informazione per rappresentazione dell’event structure Adattamento per l’Italiano It-TimeML (Caselli, 2008)
Annotare la temporalità – TimeML, ISO-TimeML, It-TimeML TimeML & ISO-TimeML sono due linguaggi di annotazione in grado di rendere esplicita l’informazione temporale all’interno di un testo/discorso. Modifiche per l’estensione dei tags EVENT e TIMEX3 • Vantaggi: • separazione netta per la rappresentazione di eventi e di espressioni temporali, proponendo metodi di classificazione indipendenti dalla lingua in analisi; • è in grado di rappresentare sia il temporal anchoring che l’event ordering Adattamento per l’Italiano It-TimeML (Caselli, 2008)
Annotare la temporalità – TimeML, ISO-TimeML, It-TimeML TimeML & ISO-TimeML sono due linguaggi di annotazione in grado di rendere esplicita l’informazione temporale all’interno di un testo/discorso. Modifiche per l’estensione dei tags EVENT e TIMEX3 • Vantaggi: • separazione netta per la rappresentazione di eventi e di espressioni temporali, proponendo metodi di classificazione indipendenti dalla lingua in analisi; • è in grado di rappresentare sia il temporal anchoring che l’event ordering • Adattamento dei valori per gli attributi TENSE e ASPECT; in particolare: • introduzione del valore IMPERFECT; • uso del valore PERFECTIVE sia per il compiuto che per l’aoristo Adattamento per l’Italiano It-TimeML (Caselli, 2008)
Annotare la temporalità – TimeML, ISO-TimeML, It-TimeML TimeML & ISO-TimeML sono due linguaggi di annotazione in grado di rendere esplicita l’informazione temporale all’interno di un testo/discorso. Modifiche per l’estensione dei tags EVENT e TIMEX3 • Vantaggi: • separazione netta per la rappresentazione di eventi e di espressioni temporali, proponendo metodi di classificazione indipendenti dalla lingua in analisi; • è in grado di rappresentare sia il temporal anchoring che l’event ordering • Adattamento dei valori per gli attributi TENSE e ASPECT; in particolare: • introduzione del valore IMPERFECT; • uso del valore PERFECTIVE sia per il compiuto che per l’aoristo Introduzione dell’attributo MOOD, per il trattamento del condizionale e del congiuntivo, e V_FORM, per dar conto delle diverse forme verbali Adattamento per l’Italiano It-TimeML (Caselli, 2008)
Annotare la temporalità – TimeML, ISO-TimeML, It-TimeML TimeML & ISO-TimeML sono due linguaggi di annotazione in grado di rendere esplicita l’informazione temporale all’interno di un testo/discorso. Modifiche per l’estensione dei tags EVENT e TIMEX3 • Vantaggi: • separazione netta per la rappresentazione di eventi e di espressioni temporali, proponendo metodi di classificazione indipendenti dalla lingua in analisi; • è in grado di rappresentare sia il temporal anchoring che l’event ordering • Adattamento dei valori per gli attributi TENSE e ASPECT; in particolare: • introduzione del valore IMPERFECT; • uso del valore PERFECTIVE sia per il compiuto che per l’aoristo Introduzione dell’attributo MOOD, per il trattamento del condizionale e del congiuntivo, e V_FORM, per dar conto delle diverse forme verbali • Mappatura delle classi di eventi con i tipi semantici di PARLE/SIMPLE/CLIPS: • miglioramento riconoscimento di eventi e loro classificazione; • introduzione di un layer semantico di informazione per rappresentazione dell’event structure Adattamento per l’Italiano It-TimeML (Caselli, 2008)
Annotare la temporalità – verso l’Italian TimeBank • Corpus dell’ Italian TimeBank • 149 articoli di quotidiano (Italian TreeBank and PAROLE) • 63.397 tokens • comparabile per contenuto e dimensioni alla TimeBank (Pustejovsky et al. 2003) 5 annotatori – tirocinanti C.L. Informatica Umanistica 2 giudici – annotatori esperti Sviluppo di PROCEDURE per l’annotazione
Annotare la temporalità – verso l’Italian TimeBank (2) • so far… • Annotazione eventi (estensione) • K = 0.83 • Annotazione espressioni di tempo (estensione) • K = 0.97 • Annotazione segnalatori • K = 0.89 • Creazione data set per TempEval 2010 (33.000 tokens)