1 / 19

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena  Corso di Laurea Specialistica in Inge

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena  Corso di Laurea Specialistica in Ingegneria Informatica . METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET NEL SISTEMA MOMIS. Relatore: Prof.ssa Sonia Bergamaschi

cissy
Download Presentation

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena  Corso di Laurea Specialistica in Inge

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena  Corso di Laurea Specialistica in Ingegneria Informatica METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET NEL SISTEMA MOMIS Relatore: Prof.ssa Sonia Bergamaschi   Correlatore: Ing. Laura Po Candidato: Serena Sorrentino     Anno Accademico 2005/2006

  2. MOMIS (Mediator EnvirOment for Multiple Information Sources) Sistema per l’integrazione intelligente di sorgenti di dati eterogenee strutturate e semi-strutturate. Obbiettivo:Integrare le informazioni fornendo uno schema concettuale globale che consenta all’utente di sottomettere una query e di ricevere una risposta unificata. Tra i problemi da affrontare Eterogeneità ontologica: Eterogeneità Semantica: differenze fra l’insieme dei termini e delle relazioni, attraverso i quali è possibile denotare i concetti e gli oggetti appartenenti ad un particolare dominio di conoscenza possibilità che diverse persone forniscano descrizioni, anche molto diverse tra loro, della stessa porzione di mondo, anche se si possiede un insieme di conoscenze comuni WordNet Disambiguazione del testo

  3. WordNet Database lessicale di riferimento che definisce i concetti della conoscenza e le relazioni che intercorrono fra di essi. Caratteristiche:  • Relazione lessicale: relazione tra due lemmi appartenenti a synset distinti (ma sempre alla stessa categoria sintattica) (es.sinonimia) • Categoria sintattica: categorie in cui sono suddivisi i termini. Le categorie sintattiche trattate sono: nomi, verbi, avverbi ed aggettivi. • Lemma:è la parola/termine a cui vengono associati uno o più significati • Synset (set of synonym): insieme di termini associati al medesimo significato ed appartenenti alla stessa categoria sintattica • Glossa:descrizione a parole di un significato specifico; ogni synset possiede anche una glossa. • Relazione Semantica: relazione che lega due synset appartenenti alla stessa categoria sintattica (es. iponimia ipernimia)

  4. Metodi e Algoritmi di Disambiguazione del Testo Il processo di disambiguazione del testo, consiste nell’identificazione dei concetti associati ai vari lemmi, ovvero nell’assegnare, ad ogni parola, il senso più corretto in base al contesto nel quale è utilizzato. In MOMIS processo di disambiguazione consente di realizzare l’annotazione dei nomi delle classi e degli attributi delle sorgenti di dati, sfruttando i synset e le relazioni fra questi, fornite da WordNet. Il processo di annotazione, essendo attualmente, realizzato in maniera completamente manuale, è altamente costoso. !Problema Obiettivo della tesi: Delineare un meccanismo di disambiguazione del testo basato su WordNet e sulle sue estensioni, che consenta di disambiguare i termini in maniera automatica o semi-automatica al fine di poter realizzare l’annotazione automatica dei termini

  5. Classificazione dei Metodi e Algoritmi di disambiguazione del testo In letteratura è possibile incontrare diverse tecniche e metodologie di disambiguazione le quali sfruttano l’informazione contenuta all’interno di una risorsa lessicale di conoscenza. • Risorsa di conoscenza utilizzata. Non esiste un criterio di classificazione univoco. Due approcci possono differire tra loro per vari aspetti: • Categorie sintattiche disambiguate. • Struttura di memorizzazione delle informazioni. • Disambiguazione locale vs disambiguazione globale • Tipologia e numero di relazioni tra i termini considerate • Algoritmi Supervisionati vs Algoritmi non Supervisionati

  6. Algoritmi Non Supervisionati Non richiedonom supervisione da parte dell’utente. Si basano sull’utilizzo di ontologie o dizionari come risorsa di conoscenza. Tra i principali citati in letteratura: Algoritmi basati sulle Catene lessicali Rappresentanti i differenti processi di coesione del testo (es. Galley e McKeown …) Confrontano le parole contenute all’interno delle glosse dei termini appartenenti del contesto.(es. Lesk) Algoritmi di Gloss Overlap Algoritmi basati su misure di relazione semantica fra i termini • Misure di similarità basate sul path tra i termini • Misure basate sul contenuto informativo dei concetti • Misure basate sul vettore di contesto Algoritmi basati sui grafi

  7. Algoritmi Supervisionati Richiedono la supervisione dell’utente e utilizzano collezioni di testi di riferimento disambiguati manualmente. Tentativo di realizzare algoritmi minimamente supervisionati. Sforzo notevole per produrre manualmente le collezioni di testi di riferimento. !Svantaggio • Liste di Decisione • Naive Bayes • AdaBoost • Funzioni di Kernel Algoritmi Completamente Supervisionati Algoritmi Minimamente Supervisionati • Sistema SenseLearn (Mihalcea) • Algoritmo Structural Semantic • Interconnection (Navigli)

  8. Algoritmi Composti Combinano due o più approcci al problema della disambiguazione del testo. Ottengono prestazioni migliori, rispetto a quelle ottenibili dall’uso dei singoli algoritmi. Rappresentano la via più promettente nell’ambito della disambiguazione. • Gloss Overlap • Metodo del senso più frequente • Parallelismo lessicale • … Extended WordNet Novischi: • Catene Lessicali • Gloss Overlap • Structural Semantic Interconnection • Misure di Similarità Brody, Navigli e Lapata: • Misure di Similarità • Gloss Overlap • Metodo del Senso più frequente Mandreoli, Martoglia e Ronchetti:

  9. Limitazioni di WordNet Nonostante WordNet abbia riscosso un ampio successo come risorsa di conoscenza nell’ambito della disambiguazione del testo, durante il suo utilizzo si sono evidenziate alcune lacune significative: • Mancanza di un lessico specifico per determinati settori di applicazione. • Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. •   Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. • Insieme limitato di relazioni lessico-semantiche rappresentate. • Livello di granularità dei synset,spesso eccessivo per le applicazioni comuni (es. alcuni verbi posseggono più di 40 sensi possibili). • Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet Estensioni di WordNet

  10. Estensioni di WordNet Tentativo di colmare le lacune di WordNet, attraverso l’inserimento di nuove relazioni, nuovi synset, ecc… eXtended WordNet (XWN): • Introdotto nel 2001 da Modovan e Mihalcea dell’Università di Dallas (USA). • Disambigua i termini delle glosse in maniera semi-automatica. • Realizza la trasformazione in forma logica delle glosse. • Consente di inferire nuove relazioni tra i termini indipendentemente dalla categoria sintattica. WordNet Domains (WND): • Introdotto nel 2002 da Magnini e Strapparava dell’ITC-irst di Trento. • Associa, a ciascun synset di WordNet, uno o più domini di appartenenza. • Si basa sulla considerazione che i domini costituiscono una fondamentale proprietà semantica sulla quale si basa la coerenza del testo. • Utilizza l’etichetta “factotum” per indicare i synset generici.

  11. Integrazione di WordNet Domains in MOMIS-Motivazioni Allo scopo di realizzare un meccanismo automatico o semi-automatico di disambiguazione del testo, si è scelto di integrare all’interno del database lessicale di MOMIS, il sistema WordNet Domains. Le motivazioni si ritrovano nel fatto che quest’ultimo rappresenta una potenziale soluzione a molte delle lacune di WordNet precedentemente delineate. In particolare: • Mancanza di un lessico specifico per determinati settori di applicazione. • Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. •   Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. • Insieme limitato di relazioni lessico-semantiche rappresentate. • Livello di granularità spesso eccessivo per le applicazioni comuni, di distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili). • Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet

  12. Integrazione di WordNet Domains in MOMIS-Motivazioni Allo scopo di realizzare un meccanismo automatico o semi-automatico di disambiguazione del testo, si è scelto di integrare all’interno del database lessicale di MOMIS, il sistema WordNet Domains. Le motivazioni si ritrovano nel fatto che quest’ultimo rappresenta una potenziale soluzione a molte delle lacune di WordNet precedentemente delineate. In particolare: • Mancanza di un lessico specifico per determinati settori di applicazione. • Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. •   Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. • Insieme limitato di relazioni lessico-semantiche rappresentate. • Livello di granularità spesso eccessivo per le applicazioni comuni, di distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili). • Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet

  13. Integrazione di WordNet Domains in MOMIS-Modifiche al DataBase WordNet Domains, è stato intergrato in MOMIS senza compromettere l’integrità delle informazioni già contenute nel suo database lessicale. Il processo di integrazione può essere riassunto nelle seguenti fasi: • Inserimento dei nomi di dominio non presenti in WordNet. • Inserimento di due nuove relazioni: “Member of this domain”, “Domain of synset” (relazione inversa). Modifiche alle tabelle del database “momiswn” • Creazione della tabella wn_domain contenente tutti i lemmi dei domini ed i synset associati. • Creazione della tabella wn_relationship_wnd, la quale conterrà le nuove relazioni introdotte. Creazione di nuove tabelle Inserimento delle relazioni semantiche “Domain of synset” e “Member of this domains” tra i synset all’interno della tabella wn_relationship_wnd. Inserimento dei dati

  14. Disambiguazione attraverso WordNet Domains Il processo di disambiguazione realizzato si basa sull’esclusivo utilizzo della sorgente di dominio WordNet Domains. Consiste, nell’individuazione dei domini prevalenti all’interno della sorgente dati e nell’assegnare ai vari termini il synset corrispondente ai domini prevalenti. Esempio: Match(Team_1, Team_2, Score, Stadio)Team (Name, Coach, Championship) Match: person, play, sport, factotum Team: biology, sport, animals Team_1: biology, sport, animals Nome: person, sociology, factotum… Team_2: biology, sport, animals Coach: military, sport, pedagogy… Score: sport, play, numeber, factotum… Championship: sport, politics Stadium: sport, town_planning, buildings

  15. Test e Risultati Ottenuti Il precedente meccanismo di disambiguazione è stato testato su due tipologie di sorgenti di dati: • Dati provenienti dal progetto WISDOM: lemmi provenienti da pagine web di attività commerciali, come hotel, ristoranti, campeggi ecc… • Dati provenienti dalle directory dei motori di ricerca GOOGLE e YAHOO Risultati dati Risultati dati

  16. Risultati dati di WISDOM

  17. Risultati di YAHOO e GOOGLE

  18. Conclusioni e sviluppi futuri In questa tesi è stato proposto un algoritmo di disambiguazione dei termini, automatico e non supervisionato, che consente di disambiguare circa il 30% dei termini con un’accuratezza media intorno al 85-90%. Il numero limitato di termini disambiguati è dovuto, in parte, all’esigenza di ottenere risultati con un’elevata accuratezza. Tale copertura potrebbe essere incrementata, estendendo ulteriormente il database lessicale di MOMIS, per esempio, attraverso eXtended WordNet. Inoltre, si sono individuate alcune esigenze legate al problema della disambiguazione: Precision vs Recall:esigenza di definire un’iniziale priorità fra correttezza e completezza dei risultati. Tipologia di sorgente:la metodologia da applicare è legata al tipo di sorgente (documento di testo, documento XML…) da disambiguare.

  19. Conclusioni e Sviluppi Futuri Metodi Composti: consentono di ottenere prestazioni migliori rispetto all’uso dei singoli algoritmi. Estensioni di WordNet:esigenza di arricchire WordNet di nuovi termini, nuove relazioni e informazioni di dominio. Il problema della disambiguazione del testo, deve, quindi, essere inteso come un processo incrementale e composto, all’interno del quale l’estensione di WordNet con WordNet Domains, rappresenta solo un primo, ma significativo, passo. Inoltre, in futuro, si potrebbe considerare la realizzazione di un algoritmo parametrizzabile, che consenta, in base a determinate caratteristiche della sorgente di dati (es: tipologia di dati, dimensione ecc…) , di selezionare il metodo di disambiguazione più opportuno.

More Related