100 likes | 294 Views
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains all'interno del sistema MOMIS. Relatore: Chiar.mo Prof. Sonia Bergamaschi. Candidato: Sawzar Rashid . Anno Accademico 2007/2008.
E N D
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains all'interno del sistema MOMIS Relatore: Chiar.mo Prof. Sonia Bergamaschi Candidato: Sawzar Rashid Anno Accademico 2007/2008
MOMIS (Mediator EnvirOment for Multiple Information Sources) Data Level : forniscono la descrizione dei sorgente in ODLI3 e traducono le query OQLI3 Mediatore: il cuore del sistema, integra nella GV i dati e genera le query per i wrapper Livello utente: il progettista interagisce per creare la vista e formulare le interrogazioni sullo schema globale
Momis e WordNet Sorgente 1 Common Thesaurus Common Thesaurus Global Schema Sorgente 2 Cluster Sorgente n Raggruppamento per affinità - Artemis Estrazione relazioni terminologiche - ODB-Tool - WordNet Costruzione Schema globale WordNet come strumento di disambiguazione dei termini (fase di annotazione)
WordNet e disambiguazione • Sistema lessicale • Divisione per categoria sintattica (nome,verbo,aggettivo e avverbio) • Termini organizzati per significato (sinonimia) Terminologia usata: • -Lemma • Synset • Glossa • Relazione (semantica e lessicale) Es: Il termine ‘agriculture’ associato a 4 diversi significati
WordNet e disambiguazione • Limiti di polisemia: verbi con più di 40 significati • Scarse relazioni tra categorie sintattiche diverse • Mancanza di un lessico specifico per determinati settori di applicazione WordNet Domains • Estensione di WN • Raccoglie i synset (anche di categorie diverse) in domini di appartenenza • Copertura dello scibile umano (allineamento alla DDC) • Utilizzo del dominio ‘Factotum’ per indicare synset generici • Struttura di gerarchia ad albero e algoritmi di disambiguazione basati sui domini prevalenti in contesto
WordNet Domains Obiettivo: Importare le informazioni di dominio in MOMIS, integrandole con quelle di WordNet • Lasciando integro lo schema del DB di WordNet esistente (momiswn) • Implementazione (Java) più semplice possibile ..e possibilmente • Rappresentando anche le proprietà gerarchiche dei domini
WordNet Domains: Importazione Utilizzo dello schema di momiswn esistente: • Definizione di una nuova categoria per i domini • Creazione di una nuova estensione WordNet Domains • Dominio come coppia synset-lemma della nuova categoria • Utilizzo dei tipi di relazione ‘Domain of synset’ e ‘Member of this Domain’ tra synset e domini • Creazione dei tipi di relazione ‘WordNet Domain Domain of synset’ e ‘WordNet Domain Member of this Domain’ di gerarchia tra i domini • Importazione delle relazioni dai file del package WordNet Domains
WordNet Domains: Implementazione Utilizzo dei metodi e delle classi di accesso al database di MOMIS mediante JDBC WnSynset BaseWnSynset WnSynsetPeer BaseWnSynsetPeer Wn_synset Creazione della classe loader per importare nelle tabelle i dati WordNetDomainLoader • Creazione di due semplici classi di supporto per: • Importare la struttura gerarchica di WordNet Domains (WordNetDomainLoaderHierarchy) • Fornire un supporto al parsing del file contenente le relazioni tra synset e domini (WordNetDomainLoaderRecord)
WordNet Domains: conclusioni sull’importazione • Si sono importate tutte le 168 etichette di dominio previste da WordNet Domains • Si sono create le relazioni tra synset e domini e quelle tra domini in momiswn, importandole da file di testo • L’architettura implementativa di MOMIS per quel che riguarda l’accesso ai dati non è stata modificata, ma anzi profittevolmente utilizzata per l’importazione …e inoltre Si è riusciti a mantenere una distinzione logica tra i dati originali di WordNet e l’importazione di WordNet Domains, grazie all’utilizzo di categoria sintattica e estensione apposite In futuro, utilizzando questa metodologia si potrebbe pensare all’importazione di gerarchie di dominio ‘specializzate’ in determinati settori.
Grazie per l’attenzione http://www.dbgroup.unimo.it