80 likes | 203 Views
UDRŽANIE AKTUÁLNOSTI A KONZISTENTNOSTI INFORMAČNÝCH ZNAČIEK. Karol Balko. Čo sú informačné značky ?. Metadáta stiahnuté so zdrojovým kódom Sématický význam zdrojovému kódu Tento pojem zavedený v projekte PerConIK Príklady: Skopírovaný kód zo stránky Počet bielych znakov.
E N D
UDRŽANIE AKTUÁLNOSTI A KONZISTENTNOSTI INFORMAČNÝCH ZNAČIEK Karol Balko
Čo sú informačné značky ? • Metadáta stiahnuté so zdrojovým kódom • Sématický význam zdrojovému kódu • Tento pojem zavedený v projekte PerConIK • Príklady: • Skopírovaný kód zo stránky • Počet bielych znakov
Problém udržiavania aktuálnosti a konzistentnosti informačných značiek • Tri podproblémy: • Zistenie chýbajúcej informačnej značky • Validácia už existujúcich informačných značiek • Doplnenie, úprava informačných značiek
1. Zistenie chýbajúcej informačnej značky • Reprezentácia zdrojových kódov ako AST stromov • Podobnosť AST stromov pomocou Treeeditdistance • Treeeditdistance • definovaná ako cenovo najmenšia sekvencia operácií editácie uzlov, ktoré treba na transformáciu stromu A na strom B. • Skúmanie výslednej hodnoty tohto algoritmu, a zistenie či je strom A predchodcom stromu B • Ak existuje informčná značka ku kódu reprezentovanom stromom A => by mala byť značka aj pri kóde reprezentovanom stromom B, ak strom B vychádza zo stromu A
2. Validácia existujúcich informačných značiek • Pre každý typ značky iný prístup • Informačná značka označujúca časť kódu skopírovaného z webovej adresy • Skúmaním URL obsiahnutým v informačnej značke • Nástroj na definovanie invariantných podmienok inf. značiek
2. Validácia existujúcich informačných značiek • Dve skupiny: • Informačné značky závislé na obsahu – vieme opravovať • Informačné značky nezávislé na obsahu – odstránenie informačnej značky
3. Doplnenie a úprava informačných značiek • Okrem samotného skúmania informačnej značky a jej validácie chceme umožniť tieto značky aj automaticky opravovať. • Dopĺňať chýbajúce informačné značky (záznamy do repozitára značiek) • Meniť (ak je to možné) inak odstrániť informačné značky z repozitára
Zhrnutie • Problém porovnávania AST stromov ? • Automatická oprava informačných značiek nezávislých na obsahu ?