120 likes | 251 Views
Detekcia toho istého obsahu pri rozdielnej linke. Milan Martinkovič. Problém a motivácia. Informačný rozmach = komplikovanejšie prehľadávanie, nižšia efektivita IR Detekcia duplicít možné zvýšenie efektivity IR algoritmov detekcia plagiarizmov. Podobné riešenia. Rôzne on-line detektory
E N D
Detekcia toho istého obsahu pri rozdielnej linke Milan Martinkovič
Problém a motivácia • Informačný rozmach = komplikovanejšie prehľadávanie, nižšia efektivita IR • Detekcia duplicít • možné zvýšenie efektivity IR algoritmov • detekcia plagiarizmov
Podobné riešenia • Rôzne on-line detektory • Chránia si svoj princíp fungovania • Riešenia zamerané na získanie podstatného obsahu • Boilerpipe • PHP kód zo stránky w-shadow
Opis riešenia • Implementácia • V jazyku PHP • Webová aplikácia • Hlavné kroky algoritmu • Získanie HTML kódu stránok • Odstránenie zbytočného obsahu • Prevod HTML na plain text • Porovnanie plain textov
Určenie hraničnej hodnoty duplicity Identické pracovné ponuky
Určenie hraničnej hodnoty duplicity Rozdielne pracovné ponuky
Určenie hraničnej hodnoty duplicity Úplne rozdielne stránky • Hraničná hodnota duplicity • 35 • Upozornenie na možné skreslenie kvôli title
Vyhodnotenie • Porovnanie ľudského verdiktu (zhodné stránky) a verdiktu programu
Vyhodnotenie • Nezhodné pracovné ponuky
Záver • Na základe vyhodnotenia môžeme prehlásiť, že riešenie je funkčné • Možné rozšírenie • Eliminácia STOP slov, za účelom presnejšieho porovnávania