510 likes | 620 Views
I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli. Pisa, 15/05/2006. Pisa, 15/05/2006. I-CAB. I-CAB. Outline. Presentazione (I-CAB & ONTOTEXT) Dati sul corpus Tool di annotazione e formati Annotazione di espressioni temporali
E N D
I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB
Outline • Presentazione (I-CAB & ONTOTEXT) • Dati sul corpus • Tool di annotazione e formati • Annotazione di espressioni temporali • Annotazione di entità • Inter-annotator Agreement • Applicazioni web: Citografo e MEANING Browser • Lavori futuri: annotazione di Relazioni ed Eventi Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
I-CAB:Italian Content Annotation Bank • Corpus di riferimento nel campo dell’Information Extraction • Riconoscimento e normalizzazione di: • espressioni temporali: assolute (15-5-06) e relative (tre giorni dopo) • entità: oggetti o insiemi di oggetti nel mondo • menzioni di entità: realizzazioni testuali delle entità • relazioni tra entità: es. la relazione “affiliazione” collega un’entità persona e un’entità organizzazione • eventi: un qualcosa che accade cambiando lo stato delle cose • persone (Ciampi, il presidente,…) • organizzazioni (Microsoft) • entità geo-politiche (Italia, Pisa) • luoghi (Largo Pontecorvo 3) Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Obiettivi: 1. Knowledge markup • Sviluppo di sistemi per l’annotazione automatica di testi • Sviluppo di un corpus di riferimento 2. Knowledge Extraction 3. Ontology learning and population Scenario applicativo: Acquisizione automatica di espressioni temporali, entità, relazioni ed eventi da articoli di giornale • Il portale web Il progetto ONTOTEXT http://tcc.itc.it/projects/ontotext/ I-CAB • Aggiornamento e arricchimento della base di conoscenza Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
ACE (Automatic Content Extraction,http://www.nist.gov/speech/tests/ace) • Time Expressions Recognition and NormalizationTask • Entity Detection and Recognition Task • Relation Detection and Recognition Task • Event Detection and Recognition Task Formalismi adottati Linguaggi di annotazione adatti a descrivere l’informazione contenuta in un testo in modo flessibile e ricco dal punto di vista semantico: Linee guida inglesi sviluppate da LDC, Linguistic Data Consortium: http://projects.ldc.upenn.edu/ace/annotation/2005Tasks.html Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
1) Adattamenti alle caratteristiche morfo-sintattiche dell’italiano: • Inclusione delle preposizioni articolate: • Inglese: at <the end of March> • Italiano: <alla fine di marzo> • Annotazione di enclitici e proclitici: • parlagli/gliene parli per favore? 2)Estensione volta ad ampliare la tipologia di menzioni annotabili: • Annotazione di congiunzioni di entità: • <la mamma e il figlio> Adattamenti ed estensioni delle linee guide inglesi Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il Corpus Adige • 525 articoli tratti da “L’Adige”, quotidiano locale • 4 giornate • 5 categorie • Un file (txt, UTF-8) per ogni articolo • Divisione in due sezioni: training (335 documenti) e test (190 documenti) • 7-8 Settembre 2004 • 7-8 Ottobre 2004 • Attualità • Cultura • Economia • Sport • Trento Numero di parole: 182.500 Numero medio di parole per file: 348 Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Software di annotazione: Callisto • CALLISTO: http://callisto.mitre.org/ • testi scritti con caratteri codificati UTF-8 e US-ASCII • scritto in Java • annotazione stand-off task diversi: es. TIMEX2 e ACE Event • file AIF (Atlas Interchange Format) • Il task TIMEX2 permette la trasformazione di AIF in SGML • Il task ACE event non permette questa trasformazione, quindi si è scelto di salvare i file in formato MAF (Meaning Annotation Format) Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il formato MEANING Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
individuare le espressioni temporali presenti nel testo determinandone l’estensione interpretare il significato delle espressioni temporali <timex2>…</timex2> set predefinito di attributi (vd. oltre) Annotazione delle Espressioni Temporali • Schema adottato: TIMEX2(http://timex2.mitre.org/) • Task: riconoscimento (detection) e normalizzazione (normalization) • Esempi di espressioni temporali annotabili: - date di calendario (15 Marzo 2005) - ore del giorno (le ore 23:00) - periodi (3 mesi ) - “sets of time” (ogni giorno) Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Esempi attributi TIMEX2 per la normalizzazione • VAL: valore dell’espressione temporale secondo lo standard ISO-8601 15 maggio 2006 VAL=“2006-05-15” sei giorni VAL=“P6D” • MOD: modificatori temporali verso mezzanotte MOD=“APPROX” i primi anni ’70 MOD=“START” • SET: identifica espressioni definite come “sets of time” ogni anno SET=“YES” n.b. NESSUN ATTRIBUTO per festività e calendari alternativi a quello gregoriano: Andrò in vacanza a <TIMEX2>Natale</TIMEX2> <TIMEX2>L’anno scolastico </TIMEX2> sta per terminare Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Qualche numero sull’annotazione delle espressioni temporali… • Numero di espressioni temporali annotate: 4.553 2.901 nel Training – 1.652 nel Test • Numero di parole annotate: 8.872 • Lunghezza media delle espressioni temporali: 2 parole • Numero medio di espressioni temporali per documento: 8,7 4,86 % del totale Occorrenze e percentuali di punti, periodi ed espressioni temporali senza VAL Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Tokenizzazione • POS tagging • Riconoscimento Multiword PRE-PROCESSING Testo NON annotato RICONOSCIMENTO • Circa 350 Regole • [LEXICAL-TRIGGER] NORMALIZZAZIONE Testo annotato • Circa 700 Regole CHRONOS • Sistema sviluppato con un approccio rule-based per il task di riconoscimento e normalizzazione delle espressioni temporali secondo lo standard TIMEX2 Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Valutazione CHRONOS Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entity Detection 1/5 Entità: oggetto o gruppo di oggetti nel mondo Menzione: realizzazione testuale di un’entità • In I-CAB annotiamo entità di tipo: • Persona es. “Carlo Azeglio Ciampi” • Organizzazione es. “Microsoft” • Geo Political Entity es. “Toscana” • Luogo es. “via Buonarroti ” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entity Detection 2/5 • Di ogni entità si individuano: - l’estensione, ovvero la frase nominale usata per riferire ad un’entità. L’estensione include: • modificatori, “Una grande famiglia” • sintagmi preposizionali, “Il Presidente della Repubblica” • proposizioni dipendenti, “La ragazza che lavora in giardino” - la testa sintattica, la parte più significativa dell’estensione • - tutte le diverse menzioni all’interno dell’articolo, ognuna delle • quali viene fatta coreferire alla rispettiva entità Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entity Detection 3/5 • Le entitità si dividono nelle seguenti classi: • SPC (Specific referential), un’entità che si riferisce da un unico oggetto o un gruppo di oggetti nel mondo Es. “Ciampi ha concluso il mandato” • GEN (Generic referential) un’entità che si riferisce a una categoria e non ad un particolare oggetto nel mondo Es. “Il Presidente della Repubblica viene eletto ogni sette anni” • USP (Under specific referential), entità che includono quantità non definite Es. “Molte persone stimano Ciampi” • NEG (Negatively quantified) entità con cui ci si riferisce a quantità negative Es. “Nessuno odia Ciampi” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entity Detection 4/5 • Le menzioni si distinguono nei seguenti tipi: • NAM: nomi propri Es. “Totti” • NOM: costruzioni nominali Es.“la squadra di calcio” • BAR: costrutti nominali senza pre-modificatori (articoli e aggettivi) Es. “poliziotti in borghese” • PRO: pronomi Es. personali “tu”, “io” • WHQ: pronomi interrogativi e relativi Es. “chiè lì?”, “Totti che gioca nella Roma” continua Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entity Detection 5/5 • PTV: partitivi Es.“alcuni giocatori della Roma” • APP: apposizioni Es.“la Roma, squadra italiana” • PROCLIT e ENCLIT: per annotare i clitici, quando la loro estensione non può essere identificata a livello di parola Es. “glielo scrivi, per favore”, “vederlo” • CONJ: congiunzioni di entità Es. “Totti e la Roma” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entità Persona 1/2 • Le entità di tipo persona (PER) sono limitate agli esseri umani • Le entità PER vengono classificate secondo i seguenti sottotipi: • Individual, es. “Francesco Totti” • Group, es. “la famiglia” • Indefinite, es. “Non so chi arriverà” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entità Persona 2/2 Qualche numero: • 7087 entità di tipo PER • 16059 menzioni di entità In media in un documento ci sono 13,5 entità di tipo PER In media una entità PER è mezionata 2,3 volte in un documento La distribuzione delle entità PER: • TRAINING 4459 entità, 9994 menzioni • TEST 2628 entità, 6065 menzioni Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entità Organizzazioni 1/3 • Le entità di tipo Organizzazione (ORG) sono limitate a • corporazioni, agenzie e gruppi organizzati sulla base di • statuti riconosciuti a livello nazionale o internazionale. • Le ORG sono distinte in 10 sottotipi: • Government, es. “i carabinieri” • Commercial, es. “la Microsoft” • Educational, es. “l’Università di Pisa” • Media, es. “National Geographic” • Religious, es. “la chiesa valdese” • Sports, es. “la Roma” • Medical-Science, es. “il laboratorio analisi” • Non-Governmental, es. “la Croce Rossa” • Entertainment, es. “la compagnia teatrale” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entità Organizzazioni 2/3 • Annotazione di menzioni di organizzazioni non italiane: • La menzione viene annotata come nome proprio (type=“NAM”), quando la traduzione è letterale. Es.“Dipartimento di Stato americano” • La menzione viene annotata come nome comune (type=“NOM”), quando la traduzione non è letterale. Es. “la polizia di stato francese” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Entità Organizzazioni 3/3 Qualche numero: • 3242 entità di tipo ORG • 6193 menzioni di entità In media in ogni documento ci sono 6,2 entità di tipo ORG In media una entità ORG è menzionata 1,9 volte in un • documento. La distribuzione delle entità ORG: • TRAINING 2217 entità • TEST 1025 entità Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Annotazione di entità geo-politiche (GPE) • Regioni geografiche caratterizzate dalla presenza di certi gruppi sociali e/o politici • SOTTOTIPI di entità: • Continent: Asia, Oceania • Nation: Italia, USA • State-or-Province: Florida, Toscana, Trentino • County-or-District: Canton Ticino, Comune di Pisa • Population-Center: Pisa, New York • GPE-Cluster: Unione Europea • Special: Palestina • RUOLO (“ROLE”) delle menzioni • GPE.ORG: La Francia ha firmato l’accordo con la Germania • GPE.PER: I francesi attendono con ansia le prossime elezioni • GPE.LOC: Il G8 si è riunito ieri in Francia • GPE.GPE: La Francia produce dell’ottimo vino Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Qualche numero sull’annotazione delle GPE… • n.b. Dati parziali, calcolati su 250 file (circa il 50% del corpus) • Numero di entità GPE = 904 1.876 menzioni • Sottotipi: • Population-Center: 470 • Nation: 186 • State-or-Province: 179 • County-or-District: 44 • GPE-Cluster: 10 • Continent: 9 • Special: 6 • Ruoli: • GPE.GPE = 980 • GPE.LOC = 573 • GPE.ORG = 281 • GPE.PER = 42 Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Dati comparativi Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Dati comparativi Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Annotazione di luoghi (Location - LOC) • Luoghi definiti su basi geografiche o astronomiche e che non costituiscono un’entità politica • SOTTOTIPI: • Address: Corso Italia, 22° W • Boundary: il confine tra l’India e il Pakistan • Celestial: Marte, il sole, il mondo • Water-Body: il Po, il Mediterraneo • Land-Region-natural: il Caucaso • Region-International: l’Africa meridionale • Region-General: l’Italia meridionale • Porzioni di GPE e di LOC sono taggabili come LOC: il centro della città, sul fondo del Pacifico Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Inter-annotator Agreement • Test di accordo tra gli annotatori per verificare la non ambiguità del task e la coerenza delle annotazioni • Mini – corpus: 10 file per circa 5.000 parole • Kappa Statistic & Dice Coefficient detection normalization • ESEMPIO • Accordo sull’annotazione delle PER: • Dice Coefficient per person entity detection = 0,906 • Dice Coefficient per mention detection = 0,951 • Kappa Statistic per l’assegnazione dei sottotipi = 0,937 • Kappa Statistic per l’assegnazione delle classi = 0,734 Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il MEANING browser 1/2 • Il meaning browser può essere usato da qualsiasi utente per navigare un qualsiasi corpus codificato in MAF. News Manual Annotation Automatic Annotation Callisto TextPro MEANING format AIF TextPro format Database MEANING brower Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il MEANING browser 2/2 Il MEANINGbrowser: http://tcc.itc.it/projects/ontotext/webicab/ Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Ricerca per singolotoken Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Ricerca per stringa Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Ricerca con carattere jolly Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Ricerca per lemma e Part of Speech Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Ricerca per lemma e Part of Speech Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Ricerca per entità Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il MEANING browser Visualizzazione del testo: evidenziazione di tutte le menzioni annotate Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Evidenziazione di tutte le menzioni annotate e delle espressioni temporali Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Evidenziazione delle ORG Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
MEANING browser Possibilità di visualizzare il pdf originale dell’articolo Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il Citografo 1/3 • Il Citografo consente di visualizzare in forma di grafico il numero di citazioni (leggi, menzioni) ricevute da specifiche entità (individui, organizzazioni, etc.) in un periodo di tempo scelto dall’utente • Dati su cui lavora il citografo: • 52000 documenti • 10 mesi de L’Adige • 10 milioni di tokens • 1 milione di frasi • I documenti sono stati annotati ortograficamente e morfosintatticamente in 8 ore usando un sistema automatico • 5,3 GB di spazio su disco Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il Citografo 2/3 Il grafico: • Tempo di creazione: ~ 2 secondi • Possibilità di ZOOM in ogni punto del grafo • La ricerca è alla Google si può richiedere che venga mostrato un grafico dell’andamento di singole parole o di più parole che occorrono insieme nello stesso documento • È possibile comparare sullo stesso grafo l’andamento delle occorrenze di più ricerche Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il Citografo 3/3 Il Citografo ontotext.itc.it/citografo Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il Citografo Andamento delle citazioni della parola “guerra” (non è ancora implementata la ricerca per entità) Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Il Citografo Andamento comparato delle parole “guerra” e “pace” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
2 Arguments Type Subtype Syntactic Class Modality Tense Annotazione di Relazioni • ACE Relation Detection and Recognition Task RELAZIONI: coppie ordinate di entità presenti all’interno di una frase Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
LIFE -> Sottotipi: be-born, die, marry, divorce • MOVEMENT -> Sottotipi: transport • TRANSACTION -> Sottotipi: transfer-money • BUSINESS -> Sottotipi: start-org, declare-bankruptcy • CONFLICT -> Sottotipi: attack • CONTACT -> Sottotipi: meet, phone-write • PERSONNEL -> Sottotipi: start-position, elect • JUSTICE -> Sottotipi: arrest-jail, trial-hearing Annotazione di Eventi • ACE Relation Detection and Recognition Task EVENTI: specifici avvenimenti che coinvolgono partecipanti, fatti che accadono nel mondo cambiando lo stato delle cose Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB
Siti web: • ACE: http://www.nist.gov/speech/tests/ace e • Callisto: http://callisto.mitre.org/ • Citografo: http://ontotext.itc.it:8080/citografo/citografo.jsp • LDC: http://www.ldc.upenn.edu/ • MEANING: http://www.lsi.upc.es/%7Erigau/meaning/meaning.html • MEANING Browser: http://ontotext.itc.it/webicab/index.php • ONTOTEXT Project: http://tcc.itc.it/projects/ontotext/ • TIMEX2: http://timex2.mitre.org/ http://projects.ldc.upenn.edu/ace/ Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB