130 likes | 255 Views
Avtonomen sistem za združevanje podatkovnih omrežij. Tomaž Kuralt. Motivacija. Uvrstitev problema. Razločevanje entitet Uporaba različnih metrik Atributne metrike Relacijske metrike Težave obstoječih pristopov Dvoumnost Utežitev metrik Nastavitev meje podobnosti. Sistem.
E N D
Avtonomen sistem za združevanje podatkovnih omrežij Tomaž Kuralt
Uvrstitev problema • Razločevanje entitet • Uporaba različnihmetrik • Atributne metrike • Relacijske metrike • Težave obstoječih pristopov • Dvoumnost • Utežitev metrik • Nastavitev meje podobnosti
Predprocesiranje • Izračun statistik iz podanega nabora podatkov • Nastavitev potrebnih parametrov • Ocena dvoumnosti • Utežitev atributov • Izbira atributa za Grupiranje
Grupiranje • Zmanjšanje časovne zahtevnosti • Reference razvrstimo v skupine • Nadaljna primerjava le med pari, ki so znotraj istih skupin
Vzpostavitev začetnega stanja • Omrežja so nepovezana • Vzpostavimo začetno stanje povezanega omrežja • Enostavna shema • Relacijska shema
Iterativno združevanje • Podana omrežja zlivamo v eno omrežje • Algoritem: • Poiščemo vse pare podobnih referenc • Izračunamo njihovo podobnostno vrednost: • Ponavljamo: • Obravnamo par z največjo sim(ci,cj) • Če presodimo, da predstavljata isto entiteto ju združimo • Posodobimo sim(ci,cj) ostalim parom
Izdelava napovedi • Uporaba klasifikacije za izdelavo napovedi o združitvi • Vektor: [d1,d2,d3...,f1,f2,f3...,L] • Odločitve metrik • Kontekstualne lastnosti • Dvoumnost • Dolžina geodetke • ...
Rezultati – realni podatki • Facebook & Twitter • F1=0,835 (s=0,139) • CiteSeer • F1=0,896 (s=0,011)
Rezultati – sintetični podatki • Kakovost združevanja v odvisnosti od šuma • Kakovost združevanja v odvisnosti od strukturne podobnosti
Sklep • Zadovoljni z rezultati • Pazljivost pri interpretaciji rezultatov • Možne izboljšave in razširitve sistema • Izgradnja več klasifikatorjev • Prevedba omrežij na skupno sintakso • Predstavitev resnične entitete v rezultatu