210 likes | 363 Views
Introduction to Web Usage Mining. Motivácia. Objavenie spôsobov akým sa sídlo / stránka používa využitie preusporiadania navigácie/obsahu vstup pre reccommender systémy analýza obsahu nákupného košíku v e-shopoch. Vymedzenie pojmov. vzory používania
E N D
Motivácia Objavenie spôsobov akým sa sídlo / stránka používa využitie • preusporiadania navigácie/obsahu • vstup pre reccommender systémy • analýza obsahu nákupného košíku v e-shopoch
Vymedzenie pojmov vzory používania • charakterizujú správanie používateľov • akým spôsobom je stránka používaná • asociácie medzi jednotlivými stránkami príklad: 80% návštevníkov stránky kliklo na odkaz '/dovolenka/Grecko' a '/dovolenka/Spanielsko' 80% zákazníkov, ktorí kúpili plienky, kúpili aj pivo
Pri dolovaní musíme rozlíšiť: kto (zákazník/používateľ) si čo (obsah nákupného košíka/obsah sedenia) kúpil/klikol. Príprava dát I.
Proces, ktorý sa skladá z čistenia dát identifikácie používateľov identifikácie sedení doplnenia chýbajúcich dát Výstupom je User Session File Príprava dát II.
roboti irelevantné záznamy whitelist, blacklist Čistenie dát
Problém: proxy server cache webového prehliadača a proxy servera Jedna IP adresa / Viacero používateľov Viac IP adries / Jedno sedenie Viac IP adries / Jeden používateľ Viac agentov / Jeden používateľ Riešenie: heuristické metódy s využitím poznatkov o štruktúre sídla a referrer logu, identifikácia pomocou OS a agenta topológia: A – B – C; E – D log: A, B, D Identifikácia používateľov
Čo môžeme označiť za jedno sedenie? Metódy: Časová identifikácia Identifikácia na základe stráveného času Identifikácia maximálnym dopredným odkazom Identifikácia pomocou štatistického jazykového modelu Identifikácia sedení
Entropia – miera neporiadku, náhodnosti v systéme pracuje nad abecedou stránok hraničná entropia { C, Java, Lisp } - nízka entropia { C, Java, Lisp, Bryndzové halušky } - nárast entropie Identifikácia sedenia pomocou štatistických jazykových modelov
Asociačné pravidlá Sekvenčné pravidlá Zhlukovanie Vzory
/Hudba, /Noty → /Gitara [sup=80%, conf=20%] X → Y [sup > minsup, conf > minconf] Support vyjadruje pravdepodobnosť, s akou sa X aj Y nachádzajú v jednej transakcii. Confidence je percentuálnym vyjadrením počtu transakcií, ktoré ak obsahujú X, tak zároveň obsahujú Y. Asociačné pravidlá
t1: Beef, Chicken, Milk O t2: Beef, Cheese t3: Cheese, Boots t4: Beef, Chicken, Cheese t5: Beef, Chicken, Clothes, Cheese, Milk X t6: Chicken, Clothes, Milk X t7: Chicken, Milk, Clothes X Rule: Chicken, Milk -> Clothes [sup = 3/7, conf = 3/4] Príklad
Apriori: Ak množina položiek dosahuje minimálnu podporu, potom aj každá podmnožina tejto množiny dosahuje minimálnu podporu. Apriori vlastnosť
rare item problem menej frekventované položky sú zaujímavejšie rotavátor → kosačka [sup=0,5%, conf=60%] chlieb, syr, mlieko → pivo [sup=0,5%, conf=60%] chlieb, syr, kosačka → pivo [sup=0,6%, conf=60%] Multiple minimum support I
MIS(Chlieb) = 2% MIS(Tričko) = 0,2% MIS(Topánky) = 0,1% Tričko → Chlieb [sup=0,15%, conf = 70%] min(MIS(Tričko), MIS(Topánky)) = 0,2% nastavenie MIS na viac ako 100% - odfiltrovanie pravidla s danou položkou φ – maximum support difference max {sup(i)} − min{sup(i)} ≤ φ Multiple minimum support II.
zohľadňujú poradie, v akom boli operácie vykonané 5% of customers buy bed first, then mattress and then pillows nevravia nič o medzikrokoch Sekvenčné pravidlá
60% návštevníkov, ktorí navštívili stránku '/Hudba' má menej ako 20 rokov a je z Bratislavy. nutné poznať kontext Zhlukovanie
Výstupom predchádzajúce kroku môže byť v závislosti od nastavenia minsup a minconf niekoľko desiatok tisíc pravidiel. Metódy: Klasifikátory zaujímavosti Multiple minimum support Šablóny Filtrovanie
Vytvorenie hierarchických kategórií Šablóny: inkluzívne reštriktívne Procedurálne programovanie, Algoritmy ⇒Any Šablóny
Huan, X., Peng, F., An, A. and Shuurmans, D.(2004). Dynamic web log session identification with statistical language models. Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Liu, B., Hsu, W. and Ma, Y. (1999). Mining association rules with multiple minimum supports. Cooley, R., Mobasher, B. and Srivastava, J. (1999). Data preparation for mining world wide web browsing patterns Klemettinen, M., Mannila, H., Ronkainen, P., Toivonen, H. and Verkamo, A. I. (1994). Finding interesting rules from large sets of discovered association rules. Referencie