140 likes | 244 Views
D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee. SIPE – Prototipo per l’estrazione di proprietà inter-sorgente. Francesco Buccafurri, Luigi Palopoli, Domenico Rosaci, Giorgio Terracina, Domenico Ursino. Estrazione di Proprietà inter-sorgente.
E N D
D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee SIPE – Prototipo per l’estrazione di proprietà inter-sorgente Francesco Buccafurri, Luigi Palopoli, Domenico Rosaci, Giorgio Terracina, Domenico Ursino
Estrazione di Proprietà inter-sorgente • Le proprietà intersorgente considerate sono: • Sinonimie • Omonimie • Similarità tra sotto-sorgenti
Rappresentazione delle sorgenti • Data una sorgente S, la SDR-Network Net(S) associate è Net(S) = < N(S), A(S) > • N(S) rappresenta l’insieme dei nodi; ciascun nodo e’ associato ad un concetto ed e’ caratterizzato dal nome del concetto che rappresenta • A(S) indica un insieme di archi; ciascun arco è rappresentato dalla tripletta < x, y, Lxy > ed indica una relazione tra concetti • x è il nodo sorgente, • y è il nodo target, • Lxy = [dxy, rxy] è un’etichetta associata all’arco • dxy rappresenta la distanza semantica • rxy indica la rilevanza semantica
Estrazione delle proprietà inter-sorgente • Estrazione di Sinonimie ed omonimie • Per derivare la similarità tra due concetti C1 and C2, si analizzano i due concetti ed i loro vicinati • L’influenza della similarità tra i vicinati di C1 e C2 nel calcolo della similarità tra C1 e C2 è inversamente proporzionale alla distanza dei vicinati dai concetti in considerazione • La similarità tra i vicinati è ottenuta calcolando una funzione obiettivo associata ad un problema di maximum weight matching; il matching è calcolato su un grafo bipartito costruito a partire dall’insieme dei nodi appartenenti ai vicinati • I coefficienti di distanza semantica e di rilevanza semantica sono utilizzati per pesare l’importanza (relativa) di ciascun concetto all’interno della sorgente
Estrazione di proprietà inter-sorgente • Estrazione di similarità tra sotto-sorgenti • La similarità tra due sotto-sorgenti è ottenuta calcolando una funzione obiettivo associata ad un problema di maximum weight matching; il matching è calcolato su un grafo bipartito costruito a partire dai nodi che compongono la sotto-sorgente • Tuttavia, il numero di possibili sotto-sorgenti è esponenziale nel numero dei nodi in Net(S) • Attraverso l’uso di tecniche che tengono conto delle similarità tra i singoli concetti delle sorgenti si seleziona un numero polinomiale di sotto-sorgenti “promettenti” da analizzare