130 likes | 219 Views
S ommarizzazione e G enerazione. Fiori Alessandro 12 Ottobre 2013 - Pisa. Cos’è un riassunto. Riassunto ( summary ) (Oxford Dictionary Online 2013): “a brief statement or account of the main points of something”
E N D
SommarizzazioneeGenerazione Fiori Alessandro 12 Ottobre 2013 - Pisa
Cos’è un riassunto • Riassunto (summary) • (Oxford Dictionary Online 2013): “a brief statement or account of the main points of something” • (Garzanti Linguistica 2013): “esposizione in forma sintetica di uno scritto, di un discorso, di un fatto e simili” • (Radev et.al. 2002): “a text that is produced from one or more texts, that conveys important information in the original text(s), and that is no longer than half of the original text(s) and usually significantly less than that. Text here is used rather loosely and can refer to speech, multimedia documents, hypertext, etc.”
Cos’è un sommarizzatore • Sommarizzazione (Automatic Summarization) • (Mani & Maybury, 1999): "to take an information source, extract content from it, and present the most important content to the user in a condensed form and in a manner sensitive to the user's or application's needs” • (Mani, 2001): “a process to produce a condensed representation of the content of its input for human consumption” • (Sparck-Jones, 1999): “a reductive transformation of source text to summary text through content condensation by selection and/or generalization on what is important in the source” • (Rehm & Uszkoreit, 2012): “tenta di presentare gli elementi essenziali di un testo lungo in forma abbreviata
Scenario Generazione sommari Riassunto
Perché i riassunti? • Motivazioni • grandi volumi di documenti • informazioni ridondanti • tempi di consultazione e ricerca elevati • Obiettivi • riduzione del volume di dati • estrazione delle informazioni rilevanti • riduzione dei tempi di consultazione
Tipologie • Astrattivi • rifrasatura del testo • simile al riassunto generato dall’uomo • Multi-documento • punti di vista e forma eterogenei • Focalizzati • orientati al dominio e/o interessi del fruitore • Multilingua • analisi semantica • Estrattivi • estratti di frasi dei testi originali • poco fluidi nella presentazione • Documento singolo • struttura e presentazione coerenti • Generici • indipendenti dal contesto applicativo • Monolingua • analisi grammaticale (POS tagging)
Metodi termatermctermd 20 15 terma • Clustering • i gruppi rappresentano frasi con significati simili • utilizzo di misure di similarità • selezione rappresentante per ogni gruppo • Grafi • i nodi identificano una frase e/o concetto • similarità misurata sugli archi • individuazione nodi rilevanti (PageRank) • Classificatori • definizione di classi di concetti • apprendimento di un modello da esempi • assegnazione di etichette alle frasi termb 25 40 termc termd termatermb 30 gruppi di frasi
Prospettive future • Social • interessi degli utenti (opinion mining) • sicurezza (sentiment analysis) • servizi personalizzati (social reading) • Aggiornamento dinamico • incremento continuo delle collezioni • flusso storico delle informazioni • cambiamenti dei gruppi di utenti • Nuovi domini applicativi • contextual advertising • medicina e biologia • e-learning
In Italia • Ricerca di base • Definizione di nuove rappresentazioni delle informazioni (itemsets) • Nuove metodologie: • multilingua • aggiornamento dinamico • dipendenti dal dominio di interesse • Integrazione sorgenti di informazioni esterne: • social media • ontologie e vocabolari controllati • Ricerca industriale • Social reading • E-learning • Opinion mining
Nel mondo • Chi sarà il prossimo?
Bibliografia • Garzanti Linguistica: http://www.garzantilinguistica.it/ • Mani I. (2001). Automatc summarization, Book, Volume 3 of Natural language processing, Amsterdam/Philadelphia, John Benjamins Publishing Company. • Mani, I., & Maybury, M. (ED.). (1999). Advances in Automatic Text Summarization, MIT Press. • Oxford Dictionary Online: http://oxforddictionaries.com/ • Radev D., Hovy E., & McKeown K. (2002). Introduction to the special issue on text summarization. Computational Linguistics, 28(4). • Rehm, G. & Uszkoreit, H. (2012). The Italian Language in the Digital Age. • Sparck-Jones, K. (1999). Automatic summarizing: factors and directions. In I. Mani and M. Maybury(Eds.), Advances in Automatic Text Summarization, MIT Press.
Libro • Innovative Document Summarization Techniques: Revolutionizing Knowledge Understanding • Alessandro Fiori (IRCC, Institute for Cancer Research and Treatment, Italy) • The prevalence of digital documentation presents some pressing concerns for efficient information retrieval in the modern age. Readers want to be able to access the information they desire without having to search through a mountain of unrelated data, so algorithms and methods for effectively seeking out pertinent information are of critical importance. • Innovative Document Summarization Techniques: Revolutionizing Knowledge Understanding evaluates some of the existing approaches to information retrieval and summarization of digital documents, as well as current research and future developments. This book serves as a sounding board for students, educators, researchers, and practitioners of information technology, advancing the ongoing discussion of communication in the digital age. Gennaio 2014
Contatti Alessandro Fiori Project Manager @ IRCC di Candiolo Docente a contratto presso Politecnico di Torino Web: http://dbdmg.polito.it/wordpress/people/alessandro-fiori/ Email:alessandro.fiori@ircc.it alessandro.fiori@polito.it