1 / 5

Porovnávanie reťazcov pre účely čistenia ontológie

Porovnávanie reťazcov pre účely čistenia ontológie. Oto Vozár. Čo sa porovnáva. Inštancie rovnakých tried v ontológii kvôli detekcii duplicít Každý dátový atribút je ováhovaný (zvažujem rozlíšiť negatívne a pozitívne váhy) Použitie reťazcových metrík na rovnaké atribúty. Ako sa porovnáva.

dylan-hunt
Download Presentation

Porovnávanie reťazcov pre účely čistenia ontológie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Porovnávanie reťazcov pre účely čistenia ontológie Oto Vozár

  2. Čo sa porovnáva • Inštancie rovnakých tried v ontológii kvôli detekcii duplicít • Každý dátový atribút je ováhovaný (zvažujem rozlíšiť negatívne a pozitívne váhy) • Použitie reťazcových metrík na rovnaké atribúty

  3. Ako sa porovnáva • Použitie knižnice SimMetrics • Vyše 15 rôznych metrík • Niektoré umožňujú prehadzovať slová (Oto Vozár = Vozár Oto) • Kompozitná metrika • Použitie viacerých metrík, ktorých relevanciu možno nastaviť váhovaním

  4. Ako sa porovnáva (pokr.) • KeyboardDistance metrika • Berie do úvahy vzdialenosť kláves na klávesnici • Veľké klávesy (medzera) • Viacero pozícii jednej klávesy • Dá sa nastaviť • cena držania shiftu alebo použitia inej klávesy (mäkčeň, dĺžeň) • cena „inej klávesnice“ – ak sa dva porovnávané znaky nachádzajú na iných klávesniciach (ô a |)

  5. Vhodnosť metrík • Pokus pomocou genetického algoritmu • Vypestovať reťazce, ktoré považuje metrika za podobné • Ukážka – KeyboardDistance • Reťazce podobné reťazcu „Oto Vozar“ • Oro VozarOro Voza Oto Voz+rOto VozaRO/o VozarBto Vozar

More Related