1 / 51

Pisa, 15/05/2006

I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli. Pisa, 15/05/2006. Pisa, 15/05/2006. I-CAB. I-CAB. Outline. Presentazione (I-CAB & ONTOTEXT) Dati sul corpus Tool di annotazione e formati Annotazione di espressioni temporali

Download Presentation

Pisa, 15/05/2006

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB

  2. Outline • Presentazione (I-CAB & ONTOTEXT) • Dati sul corpus • Tool di annotazione e formati • Annotazione di espressioni temporali • Annotazione di entità • Inter-annotator Agreement • Applicazioni web: Citografo e MEANING Browser • Lavori futuri: annotazione di Relazioni ed Eventi Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  3. I-CAB:Italian Content Annotation Bank • Corpus di riferimento nel campo dell’Information Extraction • Riconoscimento e normalizzazione di: • espressioni temporali: assolute (15-5-06) e relative (tre giorni dopo) • entità: oggetti o insiemi di oggetti nel mondo • menzioni di entità: realizzazioni testuali delle entità • relazioni tra entità: es. la relazione “affiliazione” collega un’entità persona e un’entità organizzazione • eventi: un qualcosa che accade cambiando lo stato delle cose • persone (Ciampi, il presidente,…) • organizzazioni (Microsoft) • entità geo-politiche (Italia, Pisa) • luoghi (Largo Pontecorvo 3) Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  4. Obiettivi: 1. Knowledge markup • Sviluppo di sistemi per l’annotazione automatica di testi • Sviluppo di un corpus di riferimento 2. Knowledge Extraction 3. Ontology learning and population Scenario applicativo: Acquisizione automatica di espressioni temporali, entità, relazioni ed eventi da articoli di giornale • Il portale web Il progetto ONTOTEXT http://tcc.itc.it/projects/ontotext/ I-CAB • Aggiornamento e arricchimento della base di conoscenza Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  5. ACE (Automatic Content Extraction,http://www.nist.gov/speech/tests/ace) • Time Expressions Recognition and NormalizationTask • Entity Detection and Recognition Task • Relation Detection and Recognition Task • Event Detection and Recognition Task Formalismi adottati Linguaggi di annotazione adatti a descrivere l’informazione contenuta in un testo in modo flessibile e ricco dal punto di vista semantico: Linee guida inglesi sviluppate da LDC, Linguistic Data Consortium: http://projects.ldc.upenn.edu/ace/annotation/2005Tasks.html Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  6. 1) Adattamenti alle caratteristiche morfo-sintattiche dell’italiano: • Inclusione delle preposizioni articolate: • Inglese: at <the end of March> • Italiano: <alla fine di marzo> • Annotazione di enclitici e proclitici: • parlagli/gliene parli per favore? 2)Estensione volta ad ampliare la tipologia di menzioni annotabili: • Annotazione di congiunzioni di entità: • <la mamma e il figlio> Adattamenti ed estensioni delle linee guide inglesi Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  7. Il Corpus Adige • 525 articoli tratti da “L’Adige”, quotidiano locale • 4 giornate • 5 categorie • Un file (txt, UTF-8) per ogni articolo • Divisione in due sezioni: training (335 documenti) e test (190 documenti) • 7-8 Settembre 2004 • 7-8 Ottobre 2004 • Attualità • Cultura • Economia • Sport • Trento Numero di parole: 182.500 Numero medio di parole per file: 348 Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  8. Software di annotazione: Callisto • CALLISTO: http://callisto.mitre.org/ • testi scritti con caratteri codificati UTF-8 e US-ASCII • scritto in Java • annotazione stand-off task diversi: es. TIMEX2 e ACE Event • file AIF (Atlas Interchange Format) • Il task TIMEX2 permette la trasformazione di AIF in SGML • Il task ACE event non permette questa trasformazione, quindi si è scelto di salvare i file in formato MAF (Meaning Annotation Format) Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  9. Il formato MEANING Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  10. individuare le espressioni temporali presenti nel testo determinandone l’estensione interpretare il significato delle espressioni temporali <timex2>…</timex2> set predefinito di attributi (vd. oltre) Annotazione delle Espressioni Temporali • Schema adottato: TIMEX2(http://timex2.mitre.org/) • Task: riconoscimento (detection) e normalizzazione (normalization) • Esempi di espressioni temporali annotabili: - date di calendario (15 Marzo 2005) - ore del giorno (le ore 23:00) - periodi (3 mesi ) - “sets of time” (ogni giorno) Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  11. Esempi attributi TIMEX2 per la normalizzazione • VAL: valore dell’espressione temporale secondo lo standard ISO-8601 15 maggio 2006 VAL=“2006-05-15” sei giorni VAL=“P6D” • MOD: modificatori temporali verso mezzanotte MOD=“APPROX” i primi anni ’70 MOD=“START” • SET: identifica espressioni definite come “sets of time” ogni anno SET=“YES” n.b. NESSUN ATTRIBUTO per festività e calendari alternativi a quello gregoriano: Andrò in vacanza a <TIMEX2>Natale</TIMEX2> <TIMEX2>L’anno scolastico </TIMEX2> sta per terminare Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  12. Qualche numero sull’annotazione delle espressioni temporali… • Numero di espressioni temporali annotate: 4.553 2.901 nel Training – 1.652 nel Test • Numero di parole annotate: 8.872 • Lunghezza media delle espressioni temporali: 2 parole • Numero medio di espressioni temporali per documento: 8,7 4,86 % del totale Occorrenze e percentuali di punti, periodi ed espressioni temporali senza VAL Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  13. Tokenizzazione • POS tagging • Riconoscimento Multiword PRE-PROCESSING Testo NON annotato RICONOSCIMENTO • Circa 350 Regole • [LEXICAL-TRIGGER] NORMALIZZAZIONE Testo annotato • Circa 700 Regole CHRONOS • Sistema sviluppato con un approccio rule-based per il task di riconoscimento e normalizzazione delle espressioni temporali secondo lo standard TIMEX2 Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  14. Valutazione CHRONOS Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  15. Entity Detection 1/5 Entità: oggetto o gruppo di oggetti nel mondo Menzione: realizzazione testuale di un’entità • In I-CAB annotiamo entità di tipo: • Persona es. “Carlo Azeglio Ciampi” • Organizzazione es. “Microsoft” • Geo Political Entity es. “Toscana” • Luogo es. “via Buonarroti ” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  16. Entity Detection 2/5 • Di ogni entità si individuano: - l’estensione, ovvero la frase nominale usata per riferire ad un’entità. L’estensione include: • modificatori, “Una grande famiglia” • sintagmi preposizionali, “Il Presidente della Repubblica” • proposizioni dipendenti, “La ragazza che lavora in giardino” - la testa sintattica, la parte più significativa dell’estensione • - tutte le diverse menzioni all’interno dell’articolo, ognuna delle • quali viene fatta coreferire alla rispettiva entità Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  17. Entity Detection 3/5 • Le entitità si dividono nelle seguenti classi: • SPC (Specific referential), un’entità che si riferisce da un unico oggetto o un gruppo di oggetti nel mondo Es. “Ciampi ha concluso il mandato” • GEN (Generic referential) un’entità che si riferisce a una categoria e non ad un particolare oggetto nel mondo Es. “Il Presidente della Repubblica viene eletto ogni sette anni” • USP (Under specific referential), entità che includono quantità non definite Es. “Molte persone stimano Ciampi” • NEG (Negatively quantified) entità con cui ci si riferisce a quantità negative Es. “Nessuno odia Ciampi” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  18. Entity Detection 4/5 • Le menzioni si distinguono nei seguenti tipi: • NAM: nomi propri Es. “Totti” • NOM: costruzioni nominali Es.“la squadra di calcio” • BAR: costrutti nominali senza pre-modificatori (articoli e aggettivi) Es. “poliziotti in borghese” • PRO: pronomi Es. personali “tu”, “io” • WHQ: pronomi interrogativi e relativi Es. “chiè lì?”, “Totti che gioca nella Roma” continua  Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  19. Entity Detection 5/5 • PTV: partitivi Es.“alcuni giocatori della Roma” • APP: apposizioni Es.“la Roma, squadra italiana” • PROCLIT e ENCLIT: per annotare i clitici, quando la loro estensione non può essere identificata a livello di parola Es. “glielo scrivi, per favore”, “vederlo” • CONJ: congiunzioni di entità Es. “Totti e la Roma” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  20. Entità Persona 1/2 • Le entità di tipo persona (PER) sono limitate agli esseri umani • Le entità PER vengono classificate secondo i seguenti sottotipi: • Individual, es. “Francesco Totti” • Group, es. “la famiglia” • Indefinite, es. “Non so chi arriverà” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  21. Entità Persona 2/2 Qualche numero: • 7087 entità di tipo PER • 16059 menzioni di entità In media in un documento ci sono 13,5 entità di tipo PER In media una entità PER è mezionata 2,3 volte in un documento La distribuzione delle entità PER: • TRAINING  4459 entità, 9994 menzioni • TEST  2628 entità, 6065 menzioni Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  22. Entità Organizzazioni 1/3 • Le entità di tipo Organizzazione (ORG) sono limitate a • corporazioni, agenzie e gruppi organizzati sulla base di • statuti riconosciuti a livello nazionale o internazionale. • Le ORG sono distinte in 10 sottotipi: • Government, es. “i carabinieri” • Commercial, es. “la Microsoft” • Educational, es. “l’Università di Pisa” • Media, es. “National Geographic” • Religious, es. “la chiesa valdese” • Sports, es. “la Roma” • Medical-Science, es. “il laboratorio analisi” • Non-Governmental, es. “la Croce Rossa” • Entertainment, es. “la compagnia teatrale” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  23. Entità Organizzazioni 2/3 • Annotazione di menzioni di organizzazioni non italiane: • La menzione viene annotata come nome proprio (type=“NAM”), quando la traduzione è letterale. Es.“Dipartimento di Stato americano” • La menzione viene annotata come nome comune (type=“NOM”), quando la traduzione non è letterale. Es. “la polizia di stato francese” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  24. Entità Organizzazioni 3/3 Qualche numero: • 3242 entità di tipo ORG • 6193 menzioni di entità In media in ogni documento ci sono 6,2 entità di tipo ORG In media una entità ORG è menzionata 1,9 volte in un • documento. La distribuzione delle entità ORG: • TRAINING  2217 entità • TEST  1025 entità Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  25. Annotazione di entità geo-politiche (GPE) • Regioni geografiche caratterizzate dalla presenza di certi gruppi sociali e/o politici • SOTTOTIPI di entità: • Continent: Asia, Oceania • Nation: Italia, USA • State-or-Province: Florida, Toscana, Trentino • County-or-District: Canton Ticino, Comune di Pisa • Population-Center: Pisa, New York • GPE-Cluster: Unione Europea • Special: Palestina • RUOLO (“ROLE”) delle menzioni • GPE.ORG: La Francia ha firmato l’accordo con la Germania • GPE.PER: I francesi attendono con ansia le prossime elezioni • GPE.LOC: Il G8 si è riunito ieri in Francia • GPE.GPE: La Francia produce dell’ottimo vino Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  26. Qualche numero sull’annotazione delle GPE… • n.b. Dati parziali, calcolati su 250 file (circa il 50% del corpus) • Numero di entità GPE = 904 1.876 menzioni • Sottotipi: • Population-Center: 470 • Nation: 186 • State-or-Province: 179 • County-or-District: 44 • GPE-Cluster: 10 • Continent: 9 • Special: 6 • Ruoli: • GPE.GPE = 980 • GPE.LOC = 573 • GPE.ORG = 281 • GPE.PER = 42 Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  27. Dati comparativi Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  28. Dati comparativi Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  29. Annotazione di luoghi (Location - LOC) • Luoghi definiti su basi geografiche o astronomiche e che non costituiscono un’entità politica • SOTTOTIPI: • Address: Corso Italia, 22° W • Boundary: il confine tra l’India e il Pakistan • Celestial: Marte, il sole, il mondo • Water-Body: il Po, il Mediterraneo • Land-Region-natural: il Caucaso • Region-International: l’Africa meridionale • Region-General: l’Italia meridionale • Porzioni di GPE e di LOC sono taggabili come LOC: il centro della città, sul fondo del Pacifico Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  30. Inter-annotator Agreement • Test di accordo tra gli annotatori per verificare la non ambiguità del task e la coerenza delle annotazioni • Mini – corpus: 10 file per circa 5.000 parole • Kappa Statistic & Dice Coefficient detection normalization • ESEMPIO • Accordo sull’annotazione delle PER: • Dice Coefficient per person entity detection = 0,906 • Dice Coefficient per mention detection = 0,951 • Kappa Statistic per l’assegnazione dei sottotipi = 0,937 • Kappa Statistic per l’assegnazione delle classi = 0,734 Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  31. Il MEANING browser 1/2 • Il meaning browser può essere usato da qualsiasi utente per navigare un qualsiasi corpus codificato in MAF. News Manual Annotation Automatic Annotation Callisto TextPro MEANING format AIF TextPro format Database MEANING brower Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  32. Il MEANING browser 2/2 Il MEANINGbrowser: http://tcc.itc.it/projects/ontotext/webicab/ Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  33. MEANING browser Ricerca per singolotoken Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  34. MEANING browser Ricerca per stringa Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  35. MEANING browser Ricerca con carattere jolly Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  36. MEANING browser Ricerca per lemma e Part of Speech Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  37. MEANING browser Ricerca per lemma e Part of Speech Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  38. MEANING browser Ricerca per entità Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  39. Il MEANING browser Visualizzazione del testo: evidenziazione di tutte le menzioni annotate Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  40. MEANING browser Evidenziazione di tutte le menzioni annotate e delle espressioni temporali Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  41. MEANING browser Evidenziazione delle ORG Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  42. MEANING browser Possibilità di visualizzare il pdf originale dell’articolo Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  43. Il Citografo 1/3 • Il Citografo consente di visualizzare in forma di grafico il numero di citazioni (leggi, menzioni) ricevute da specifiche entità (individui, organizzazioni, etc.) in un periodo di tempo scelto dall’utente • Dati su cui lavora il citografo: • 52000 documenti • 10 mesi de L’Adige • 10 milioni di tokens • 1 milione di frasi • I documenti sono stati annotati ortograficamente e morfosintatticamente in 8 ore usando un sistema automatico • 5,3 GB di spazio su disco Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  44. Il Citografo 2/3 Il grafico: • Tempo di creazione: ~ 2 secondi • Possibilità di ZOOM in ogni punto del grafo • La ricerca è alla Google  si può richiedere che venga mostrato un grafico dell’andamento di singole parole o di più parole che occorrono insieme nello stesso documento • È possibile comparare sullo stesso grafo l’andamento delle occorrenze di più ricerche Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  45. Il Citografo 3/3 Il Citografo ontotext.itc.it/citografo Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  46. Il Citografo Andamento delle citazioni della parola “guerra” (non è ancora implementata la ricerca per entità) Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  47. Il Citografo Andamento comparato delle parole “guerra” e “pace” Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  48. 2 Arguments Type Subtype Syntactic Class Modality Tense Annotazione di Relazioni • ACE Relation Detection and Recognition Task RELAZIONI: coppie ordinate di entità presenti all’interno di una frase Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  49. LIFE -> Sottotipi: be-born, die, marry, divorce • MOVEMENT -> Sottotipi: transport • TRANSACTION -> Sottotipi: transfer-money • BUSINESS -> Sottotipi: start-org, declare-bankruptcy • CONFLICT -> Sottotipi: attack • CONTACT -> Sottotipi: meet, phone-write • PERSONNEL -> Sottotipi: start-position, elect • JUSTICE -> Sottotipi: arrest-jail, trial-hearing Annotazione di Eventi • ACE Relation Detection and Recognition Task EVENTI: specifici avvenimenti che coinvolgono partecipanti, fatti che accadono nel mondo cambiando lo stato delle cose Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

  50. Siti web: • ACE: http://www.nist.gov/speech/tests/ace e • Callisto: http://callisto.mitre.org/ • Citografo: http://ontotext.itc.it:8080/citografo/citografo.jsp • LDC: http://www.ldc.upenn.edu/ • MEANING: http://www.lsi.upc.es/%7Erigau/meaning/meaning.html • MEANING Browser: http://ontotext.itc.it/webicab/index.php • ONTOTEXT Project: http://tcc.itc.it/projects/ontotext/ • TIMEX2: http://timex2.mitre.org/ http://projects.ldc.upenn.edu/ace/ Pisa, 15/05/2006 Pisa, 15/05/2006 I-CAB I-CAB Pisa, 15/05/2006 I-CAB

More Related