110 likes | 233 Views
Anal ýza r e á l nych X Query dotazov. Peter Hlísta. Zadanie diplomovej práce. Cieľ diplomovej práce zozbierať dáta ( XQuery dotazy) a zanalyzovať ich K dispozícii program Analyzer * a jeho plug-in XQConverter ** Dorobiť Vybrať vhodný crawler /prípadne ho upraviť
E N D
Analýza reálnych XQuerydotazov Peter Hlísta
Zadanie diplomovej práce • Cieľ diplomovej práce • zozbierať dáta (XQuery dotazy) a zanalyzovať ich • K dispozícii • program Analyzer* a jeho plug-inXQConverter** • Dorobiť • Vybrať vhodný crawler/prípadne ho upraviť • Zozbierať dáta z internetu • Zanalyzovať zozbierané dáta *Analyzer je program vytvorený ako softwarový projekt na MFF **XQConverter je plug-in vytvorený k diplomovej práci J. Schejbala
Crawler* *upravený crawler z „crawler4j“
Získané súbory • Z 4,198 URL sme získali 10,591 súborov
XQConverter • Súčasť Analyzeru (plug-in) • Obsahuje lexikálny skener (analyzér) a syntaktický analyzér • Má konzolovú verziu • Chyby v stiahnutých programoch • lexikálne 87% • syntaktické 3% • bez chýb 10% *architektúra použitého „XQConverter“ plug-inu
Analýza dát – XQuery gramatika • Počet jednotlivých gramatických symbolov • Ich výskyt v súboroch (v %) • Nepoužité gramatické symboly • DefaultCollationDecl, EmptyOrderDecl, OrderedExpr, UnorderedExpr
Analýza dát – XPath v XQuery • Rozsiahlosť XPath výrazu • Počet krokov XPath výrazu • Ako často je použitý predikát • Z 24,236 XPath je predikát v 5,749 (tj. 23.7%) • Použité vstavané XPath funkcie • Na čo sa v poslednom kroku pýta • element, atribút alebo textový uzol
Analýza dát - FLWOR • For (56.1%), Let (74.5%) • Priemerný počet na jeden ‘FLWOR’ • Maximálny počet na jeden ‘FLWOR’ • Where (21.1%), Order By (7.2%), Return • Zanorenie FLWOR • 2-, 3-, 4-krát bežné ale našlo sa aj cez 5-krát
Analýza dát • Funkcie • rekurzívne funkcie • funkcie bez volania v tele dotazu • počet volaní funkcie fn:doc • počet volaní vstavaných alebo externých funkcií • Premenné • priemerná dĺžka znakov v premenných typu ‘xs:string’ • iba zadefinovaná premenná (nepoužitá) • Jednoduchší a zložitejší výstup z XQuery dotazu