50 likes | 162 Views
Porovnávanie reťazcov pre účely čistenia ontológie. Oto Vozár. Čo sa porovnáva. Inštancie rovnakých tried v ontológii kvôli detekcii duplicít Každý dátový atribút je ováhovaný (zvažujem rozlíšiť negatívne a pozitívne váhy) Použitie reťazcových metrík na rovnaké atribúty. Ako sa porovnáva.
E N D
Porovnávanie reťazcov pre účely čistenia ontológie Oto Vozár
Čo sa porovnáva • Inštancie rovnakých tried v ontológii kvôli detekcii duplicít • Každý dátový atribút je ováhovaný (zvažujem rozlíšiť negatívne a pozitívne váhy) • Použitie reťazcových metrík na rovnaké atribúty
Ako sa porovnáva • Použitie knižnice SimMetrics • Vyše 15 rôznych metrík • Niektoré umožňujú prehadzovať slová (Oto Vozár = Vozár Oto) • Kompozitná metrika • Použitie viacerých metrík, ktorých relevanciu možno nastaviť váhovaním
Ako sa porovnáva (pokr.) • KeyboardDistance metrika • Berie do úvahy vzdialenosť kláves na klávesnici • Veľké klávesy (medzera) • Viacero pozícii jednej klávesy • Dá sa nastaviť • cena držania shiftu alebo použitia inej klávesy (mäkčeň, dĺžeň) • cena „inej klávesnice“ – ak sa dva porovnávané znaky nachádzajú na iných klávesniciach (ô a |)
Vhodnosť metrík • Pokus pomocou genetického algoritmu • Vypestovať reťazce, ktoré považuje metrika za podobné • Ukážka – KeyboardDistance • Reťazce podobné reťazcu „Oto Vozar“ • Oro VozarOro Voza Oto Voz+rOto VozaRO/o VozarBto Vozar