E N D
Università Degli Studi di Modena e Reggio EmiliaFacoltà di Ingegneria – Sede di ModenaCorso di Laurea in Ingegneria InformaticaNuovo Ordinamento DidatticoTESI DI LAUREA DI PRIMO LIVELLOAnno accademico 2003 – 2004Sistema Momis: analisi sperimentale dell’integrazione di una nuova sorgentemateriale disponibile all’url http://www.dbgroup.unimo.it/tesi/indexNod.html Candidato: Matteo Generali Relatore: Prof. Sonia Bergamaschi
COMMON THESAURUSGENERATION GVV GENERATION GLOBAL CLASSES SYNSET# SCHEMA DERIVEDRELATIONSHIPS SYNSET4 LEXICON DERIVEDRELATIONSHIPS SYNSET1 SYNSET2 Common Thesaurus clustersgeneration USER SUPPLIEDRELATIONSHIPS MAPPING TABLES INFERRED RELATIONSHIPS Sistema MOMIS: Mediator envirOnment for Multiple Information Sources WRAPPING ODLI3LOCAL SCHEMA 1 <XML> <DATA> Semi-Structured Source … ODLI3 LOCAL SCHEMA N RDB Structured source MANUALANNOTATION SEMI-AUTOMATIC ANNOTATION
Estrazione delle sorgenti locali Sorgente relazionale Wrapper relazionale ODLi3 Sorgente XML DTD Wrapper DTD ODLi3 Wrapper HTML (Lixto) Sorgente HTML
Annotazione delle sorgenti locali Elemento (Classe o Attributo) WordNet • Annotazione: • Word form • Significato
Generazione del Common Thesaurus Tipi di relazione Origini delle relazioni • SYN (Synonim) • BT (Broader Term) • NT (Narrower Term) • RT (Related Term) • Schema • Lessico • Aggiunte del progettista • ODB-Tools (chiusura transitiva)
Generazione della GVV • Naming Affinity Coefficient (NA) • Calcolato considerando i cammini che legano i nomi di due classi negli altri casi • Structural Affinity Coefficient (SA) • Affinità strutturale fra le descrizioni di due classi Valori suggeriti wNA = 0,5 wSA = 0,5 Soglia = 0,5 • Global Affinity Coefficient (GA) • GA = (NA x wNA) + (SA x wSA)
class#3 = course#1 = education imparted in a series of lessons or class meetings teaching#3 = activities that impart knowledge Significati WordNet Classi Locali annotate Relazioni del Common Thesaurus CS.Class=<class, {class#3}> UNI.Course=<course,{course#1}> UNI.Teaching=<teaching,{teaching#3}> significati Classe Globale annotata nomi G = <{ class, teaching,course},{class#3,teaching#3, course#1}> nome più generale significato più generale Annotazione della GVV G= {CS.Class, UNI.Course, UNI.Teaching}
Integrazione di una nuova sorgente Primo approccio Secondo approccio oldSource1 GVVold newGVV oldSource1 oldSource1 oldSource2 oldSource2 oldSource2 oldSource3 oldSource3 oldSource3 newSource newSource newSource
Ricalcolo della GVV sfruttando la GVV precedente GCnew GCold LCnew LCnew • Caso 1 GCnew LCnew LCnew LCnew • Caso 2 GCnew GCold GCold LCnew • Caso 3
Sperimentazione Esperimento 1 • Sperimentazione Caso 1 e Caso 2 • Confronto tra le GVV ottenute Esperimento 2 • Sperimentazione Caso 3 • Analisi teorica del Caso 3
Esperimento 1: esempio GVVold.Indirizzo + subfor.Indirizzo = GVVnew.Indirizzo
Confronto tra i due approcci • Risultati finali confrontabili • Il primo approccio è più oneroso nel numero delle relazioni • Il secondo approccio ha un potere espressivo inferiore • Il secondo approccio si presta a procedure con intervento minimo del progettista, il primo approccio consente maggiore interazione
Esperimento 2 Il terzo caso di integrazione è più complesso: • La sua presenza può compromettere la struttura della GVV come vista da applicazioni che svolgono query su di essa
Esperimento 2: esempio C NT NT NA = 0,4 SA ≥ 0,1 NA = 0,4 SA ≥ 0,1 A B RT NA = 0,32 SA < 0,25 Riepilogo
Esperimento 2: conclusioni • Il terzo caso di integrazione introduce una possibile inefficacia della GVV • Solamente casi limite sono impossibili, molti altri sono realizzabili in teoria • Talvolta è conveniente affrontare il terzo caso come estensione di uno degli altri due