1 / 20

Analýza chování návštěvníků na webu W eb Usage Mining , Clickstream Analysis , Web Analytics

Analýza chování návštěvníků na webu W eb Usage Mining , Clickstream Analysis , Web Analytics. Tom áš Kliegr. Osnova. Definice Sběr dat Předzpracování JS tracker Google Analytics. Definice.

truda
Download Presentation

Analýza chování návštěvníků na webu W eb Usage Mining , Clickstream Analysis , Web Analytics

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analýza chování návštěvníků na webuWeb Usage Mining, Clickstream Analysis, Web Analytics Tomáš Kliegr

  2. Osnova • Definice • Sběr dat • Předzpracování • JS trackerGoogleAnalytics

  3. Definice • Clickstream analysis: proces sběru, analýzy a reportování agregátních dat o tom, jaké stránky si návštěvníci zobrazují a v jakém pořadí • Web UsageMining (přibližně): clickstream analýza jako vědecká disciplína • Web Analytics (přibližně): clickstream analýza v praxi

  4. Cíle clickstream analýzy • Úlohy clickstream analýzy se obvykle rozdělují na: • Analýzu provozu (trafficanalysis) • Cesty návštěvníků po webu • Důraz na typické chování návštěvníků • E-Commerce analýzu • Určení efektivity prodeje • Důraz na referrery (odkud návštěvník přišel?) a konverze (koupil něco?)

  5. Způsoby sběru dat • Log webového serveru • Proxy servery • TCP/IP packet sniffer • Příliš složité v praxi (facca?) • Javascripttracker • Klientská aplikace (toolbar) • Každý z uvedených způsobů má své klady a zápory • Vhodné kombinovat

  6. Log webového serveru • Webové servery (IIS, Apache) lze nastavit tak, aby vytvářely záznamy o požadavcích na ně učiněných • Historicky zřejmě nejstarší způsob • Dnes problémy s přesností

  7. Příklad položek logu • REMOTE HOST IP • REMOTE HOST LOGIN NAME • AUTH Login • DATE • REQUEST - přesné znění příkazu zaslaného webovému serveru • WEB SERVER’s RETURN CODE • SIZE OF RETURNED FILE • REFERRER– URL stránky, která na požadovaný resource odkazovala • USER AGENT

  8. Proxy Servery • Možnost získat data o provozu na vícero webech • Nejkomplexnější data • Zaznamená i požadavky, které na webový server vůbec nedorazí (jsou obslouženy proxy) • Data z proxy serverů se dají koupit, nebo je možné je získat provozem vlastního proxy serveru • Google Web Accelarator: ”’..we may use log information about Google Web Accelerator usage to improve the quality of Google Web Accelerator and other Google services.“ • Obvykle ale přístup k datům z dostatečně reprezentativního proxy serveru není k dispozici

  9. JavascriptTracker Příklad realizace javascripttrackeru (serverová část na MS technologii)

  10. Klientská aplikace • Java Applet (Shababi) • Pomocí eyetrackeru lze např. studovat souvislost mezi pořadím linku ve výsledcích a pozorností, kterou získá. • Míra pozornosti která se dostává linkům na 1. a 2. pozici je téměř stejná (Granka) – obr. ukazuje počet výsledků pod a nad vybraným dokumentem, který návštěvníci skenují

  11. JavascriptTracker detailně • Viz případová studie

  12. Předzpracování získaných dat • Liší se v závislosti od datového zdroje • Náročná je kvalitní příprava dat z log souborů • Pomocí Javascriptu to lze snadno

  13. Předzpracování log souboru (Reichle et al)

  14. Předzpracování log souboru • Vynechání požadavků na obrázky • Analýza refereru • URL Encoding se používá pro zakódování speciálních znaků v URL – obvzlášť důležité v češtině • Rozpoznání relací – existuje řada heuristik • Např. stejná zdrojová IP adresa a časový interval mezi dvěma požadavky max. 20 min. • Jedno ze slabých míst log souborů • Identifikace robotů – lze dosáhnout cca 90% spolehlivost (Geens) • Seznamy user-agentů, IP adres, požadavek HEAD místo GET • Typicky nestahují obrázky a mají prázdná referrer • Případně zpracování cookies, které mohou být v log souboru též uvedeny

  15. Srovnání Javascript (PageTagging) Analýzalogů Bez problémů s proxy a cachemi Trackuje klient-side události (Javascript, Flash, Web 2.0) Klientské zachycení E-commerce dat Sběr dat v reálném čase Outsourcované aktualizace softwaru Efektivní ukládání dat, které může být snadno outsourcováno Znovupoužití historických dat Bez problémů s Firewally Lze sledovat bandwidth a dokončené downloady Automaticky sleduje spidery a roboty Automatickysleduje návštěvníky z mobilních zařízení Transparentnost pro návštěvníka Nepřesnosti spojené s proxy a cachováním Nelze sledovat události (js, Flash,W 2.0) Obecně složitější aktualizace a data storage Neefektivní datový formát Možné problémy v případě, že je použit přepis adres (ISAPI filtern. mod_rewrite) Špatné nastavení vede ke ztrátě dat Firewally mohou omezit použití tagů Výsledek měření je závislý na umístění tracking codu (začátek/konec body sekce) Nelze trackovatspidery Upraveno dle Web analyticswhitepape, Advanced-web-metrics.com

  16. Kdy javascripttracker nemusí fungovat správně • Prohlížeč nepodporuje cookies, podpora cookie je vypnuta nebo omezena na cookie prvních stran. • Prohlížeč nestahuje obrázky • Prohlížeč nepodporuje javascript • Prohlížeč blokuje konkrétní scripty (adblocker) • Reálným problémem je především podpora cookies • http://www.webtrends.com/AboutWebTrends/NewsRoom/NewsRoomArchive/2005/CookieRejection.aspx

  17. Přehled komerčních řešení • Špička • Omniture • Clicktracks • Webtrends • „Contender“ • Google Analytics • Jednoduché srovnání viz: web-data-sources.pdf • Aktualizovaná srovnání produktů v ForrestWave (r) – Web Analytics

  18. Případová studie: Google AnalyticsINterceptor • Rozšíření Google Analytics, které umí zasílat data jak na lokální server tak i na vzdálený • Využívá možnosti placené verze Urchin, která umožňuje logovat požadavky i pomocí lokálního log souboru (vyšší přesnost) Google Analytics INterpceptor Google Analytics

  19. Vložení trackovacího kódu • <scriptsrc="http://www.google-analytics.com/urchin.js" • type="text/javascript"></script> • <script type="text/javascript"> • _ugifpath="http://www.example.cz/trackicon.aspx"; • _userv=2; • _uacct = "UA-135959-5"; • _udn="none"; • _ulink=1; • urchinTracker(); • </script> Upozornění: stará verze GA

  20. Mechanizmus předávání kliknutí z javascriptu na sledovácí server • if ((_userv==0 || _userv==2) && _uSP()) { • i[ii]=new Image(1,1); • i[ii].src=_ugifpath+"?"+"utmwv="+_uwv+s; • i[ii].onload=function() { _uVoid(); } • } • if ((_userv==1 || _userv==2) && _uSP()) { • i2[ii]=new Image(1,1); • i2[ii].src=_ugifpath2+"?"+"utmwv="+_uwv+s+"&utmac="+_uacct+"&utmcc="+c; • i2[ii].onload=function() { _uVoid(); } • } _ugifpath = http://www.google-analytics.com/_utm.gif Upozornění: stará verze GA

More Related