1 / 21

Introduction to Web Usage Mining

Introduction to Web Usage Mining. Motivácia. Objavenie spôsobov akým sa sídlo / stránka používa využitie preusporiadania navigácie/obsahu vstup pre reccommender systémy analýza obsahu nákupného košíku v e-shopoch. Vymedzenie pojmov. vzory používania

jalene
Download Presentation

Introduction to Web Usage Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introduction to Web Usage Mining

  2. Motivácia Objavenie spôsobov akým sa sídlo / stránka používa využitie • preusporiadania navigácie/obsahu • vstup pre reccommender systémy • analýza obsahu nákupného košíku v e-shopoch

  3. Vymedzenie pojmov vzory používania • charakterizujú správanie používateľov • akým spôsobom je stránka používaná • asociácie medzi jednotlivými stránkami príklad: 80% návštevníkov stránky kliklo na odkaz '/dovolenka/Grecko' a '/dovolenka/Spanielsko' 80% zákazníkov, ktorí kúpili plienky, kúpili aj pivo

  4. Dolovanie vzorov

  5. Pri dolovaní musíme rozlíšiť: kto (zákazník/používateľ) si čo (obsah nákupného košíka/obsah sedenia) kúpil/klikol. Príprava dát I.

  6. Proces, ktorý sa skladá z čistenia dát identifikácie používateľov identifikácie sedení doplnenia chýbajúcich dát Výstupom je User Session File Príprava dát II.

  7. roboti irelevantné záznamy whitelist, blacklist Čistenie dát

  8. Problém: proxy server cache webového prehliadača a proxy servera Jedna IP adresa / Viacero používateľov Viac IP adries / Jedno sedenie Viac IP adries / Jeden používateľ Viac agentov / Jeden používateľ Riešenie: heuristické metódy s využitím poznatkov o štruktúre sídla a referrer logu, identifikácia pomocou OS a agenta topológia: A – B – C; E – D log: A, B, D Identifikácia používateľov

  9. Čo môžeme označiť za jedno sedenie? Metódy: Časová identifikácia Identifikácia na základe stráveného času Identifikácia maximálnym dopredným odkazom Identifikácia pomocou štatistického jazykového modelu Identifikácia sedení

  10. Entropia – miera neporiadku, náhodnosti v systéme pracuje nad abecedou stránok hraničná entropia { C, Java, Lisp } - nízka entropia { C, Java, Lisp, Bryndzové halušky } - nárast entropie Identifikácia sedenia pomocou štatistických jazykových modelov

  11. Asociačné pravidlá Sekvenčné pravidlá Zhlukovanie Vzory

  12. /Hudba, /Noty → /Gitara [sup=80%, conf=20%] X → Y [sup > minsup, conf > minconf] Support vyjadruje pravdepodobnosť, s akou sa X aj Y nachádzajú v jednej transakcii. Confidence je percentuálnym vyjadrením počtu transakcií, ktoré ak obsahujú X, tak zároveň obsahujú Y. Asociačné pravidlá

  13. t1: Beef, Chicken, Milk O t2: Beef, Cheese t3: Cheese, Boots t4: Beef, Chicken, Cheese t5: Beef, Chicken, Clothes, Cheese, Milk X t6: Chicken, Clothes, Milk X t7: Chicken, Milk, Clothes X Rule: Chicken, Milk -> Clothes [sup = 3/7, conf = 3/4] Príklad

  14. Apriori: Ak množina položiek dosahuje minimálnu podporu, potom aj každá podmnožina tejto množiny dosahuje minimálnu podporu. Apriori vlastnosť

  15. rare item problem menej frekventované položky sú zaujímavejšie rotavátor → kosačka [sup=0,5%, conf=60%] chlieb, syr, mlieko → pivo [sup=0,5%, conf=60%] chlieb, syr, kosačka → pivo [sup=0,6%, conf=60%] Multiple minimum support I

  16. MIS(Chlieb) = 2% MIS(Tričko) = 0,2% MIS(Topánky) = 0,1% Tričko → Chlieb [sup=0,15%, conf = 70%] min(MIS(Tričko), MIS(Topánky)) = 0,2% nastavenie MIS na viac ako 100% - odfiltrovanie pravidla s danou položkou φ – maximum support difference max {sup(i)} − min{sup(i)} ≤ φ Multiple minimum support II.

  17. zohľadňujú poradie, v akom boli operácie vykonané 5% of customers buy bed first, then mattress and then pillows nevravia nič o medzikrokoch Sekvenčné pravidlá

  18. 60% návštevníkov, ktorí navštívili stránku '/Hudba' má menej ako 20 rokov a je z Bratislavy. nutné poznať kontext Zhlukovanie

  19. Výstupom predchádzajúce kroku môže byť v závislosti od nastavenia minsup a minconf niekoľko desiatok tisíc pravidiel. Metódy: Klasifikátory zaujímavosti Multiple minimum support Šablóny Filtrovanie

  20. Vytvorenie hierarchických kategórií Šablóny: inkluzívne reštriktívne Procedurálne programovanie, Algoritmy ⇒Any Šablóny

  21. Huan, X., Peng, F., An, A. and Shuurmans, D.(2004). Dynamic web log session identification with statistical language models. Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Liu, B., Hsu, W. and Ma, Y. (1999). Mining association rules with multiple minimum supports. Cooley, R., Mobasher, B. and Srivastava, J. (1999). Data preparation for mining world wide web browsing patterns Klemettinen, M., Mannila, H., Ronkainen, P., Toivonen, H. and Verkamo, A. I. (1994). Finding interesting rules from large sets of discovered association rules. Referencie

More Related