1 / 46

Web Mining

Web Mining. Web Mining. Στόχος : μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού ( Web Content Mining ) Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού ( Web Structure Mining )

emmly
Download Presentation

Web Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web Mining

  2. Web Mining • Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό • Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού (Web Content Mining) • Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού (Web Structure Mining) • Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού (Web Usage Mining)

  3. Web Mining Εισαγωγή • Τεράστιο μέγεθος • 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες • Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις http://www.netcraft.com/Survey

  4. The Web Web Data • No design/co-ordination • Distributed content creation, linking, democratization of publishing • Content includes truth, lies, obsolete information, contradictions … • Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)… • Scale much larger than previous text corpora, and also corporate records are catching up. • Growth – slowed down from initial “volume doubling every few months” but still expanding • Content can be dynamically generated

  5. Web Mining Taxonomy

  6. Web Content Mining • Βασικό συστατικότων μηχανών αναζήτησης • Εφαρμογές • Ιεραρχίες εννοιών και συνώνυμα • Προφίλ χρηστών • Ανάλυση συνδέσμου μεταξύ σελίδων • Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών • Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων)

  7. Keyword Term Association Similarity Search Classification Clustering Natural Language Processing

  8. Crawlers • Robot (spider)διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας • Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή. • Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή. • Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή. • Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο.

  9. Διαπερνώντας το διαδίκτυο (Crawling) Διαπερνώντας τον Παγκόσμιο Ιστό • ποιες σελίδες πρέπει να προσπελαστούν ; • τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; • (refresh policy) • πωςπραγματοποιείται εστιασμένη διαπέραση;

  10. URLs crawled and parsed Unseen Web Seed Pages URL frontier Crawling thread

  11. Crawling - Επιλογή Σελίδων – Μετρικές Σημαντικότητας Interest Driven Searching the Web

  12. Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Interest Driven & Ομοιότητα Κειμένων “A new approach to topic-specific web resource discovery” Chakrabarti et al. 8th WWW conference 1999 Searching the Web

  13. Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Popularity Driven Location Driven

  14. Crawling - Ανανέωση Σελίδων • f=σταθερή • f=F(λi)

  15. Focused Crawler • Χρήση ιεραρχικής ταξινόμησης • Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes • Βασική ιδέα: o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός

  16. Context Focused Crawler (εστιασμένος σε συμφραζόμενα crawler) • Γράφος Συμφραζομένων (Context Graph): • Δημιουργείται για κάθε γόνο(seed document) με ρίζα αυτόν • Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου • Ενημερώνεται κατά τη διάρκεια της διαπέρασης • Συγχώνευσε και δημιούργησε ένα ενιαίο context graph • Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph

  17. Προβλήματα • Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες. • Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές

  18. Context Graph Χρήση tf-idf μετρικής

  19. Υπερβατική όψη Παγκόσμιου Ιστού (προσέγγιση Β.Δ.) • Πολλαπλών Επιπέδων Βάση Δεδομένων (MLDB)πάνω από τα δεδομένα του παγκόσμιου ιστού. • Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). • Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries. • Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές • Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. • Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML.

  20. Εξατομίκευση • Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη. • Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. • Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες . • Το φιλτράρισμα με βάση το περιεχόμενοανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών.

  21. Web Structure Mining • Εξόρυξη Δομής (σύνδεσμοι, γράφημα) του παγκόσμιου ιστού • Τεχνικές • PageRank • CLEVER • Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού. • Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες.

  22. Ranking and Link Analysis O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία ! • PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google) • HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever – IBM). Searching the Web

  23. PageRank • Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της(αριθμό υπερδεσμών εισόδου ή συνολικό αριθμό υπερδεσμών εισόδου και εξόδου) www.upatras.gr #in_links=760 www.stanford.edu #in_links=33600 www.upatras.gr www.stanford.edu Searching the Web

  24. PageRank strongly connected graph

  25. PageRank • random surfer model Searching the Web

  26. PageRank • random surfer model Searching the Web

  27. Λεπτομέρειες Υπολογισμού (1) • Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και έναnnπιθανοτικό πίνακα μεταβάσεωνP. • Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις. • Για1  i,j  n, το στοιχείοPijμας δίνει τη πιθανότητα τοjνα βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i. • Μία Markov chain είναι εργοδική εάν • Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη • Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα.

  28. Λεπτομέρειες Υπολογισμού (2) • Για κάθεεργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution. • Έστω a = (a1, … an) το row vector με τις steady-state πιθανότητες. • Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP. • Άρα a=aP, και συνεπώς • το a είναι το (αριστερό) ιδιοδιάνυσματου P. • (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή.)

  29. Hypertext Induced Topic Search (HITS) • Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q. authority hub Q=“greek university” Authority : www.upatras.gr www.auth.gr students.ceid.upatras.gr/~antonid Hub: www.gunet.gr Universities Worldwide http://geowww.uibk.ac.at/univ/world.html www.cti.gr Searching the Web

  30. Hypertext Induced Topic Search (HITS) Απάντηση στο Q S: focused subgraph RS: root set (~103) max{d} Searching the Web

  31. Hypertext Induced Topic Search (HITS)

  32. Hypertext Induced Topic Search (HITS) Searching the Web

  33. Hypertext Induced Topic Search (HITS)

  34. Graph structure in the Web,Computer Networks,2000. Andrei Broder, Ravi Kumar, et al. Searching the Web

  35. Για τυχαίες σελίδεςp1,p2: • Pr[p1να προσπελαύνεται απόp2] ~ 1/4 • Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28 • Μέση κατευθυνόμενη απόσταση μεταξύ2 κόμβων: ~16 • Μέση μη κατευθυνόμενη απόσταση: ~7

  36. Power Laws - Γενικά • Δύο ποσότητες x και y συνδέονται με έναν power law όταν • y  x-c  log y = -c*log x

  37. Ένας γνωστός power law • Κατανομή Zipf • y : συχνότητα λέξης σε κείμενο • x : o x-οστός πιο συχνός όρος • Power law για c=1 • y  1/x

  38. Power laws και στο Web? • Broderet. al. 1999 • y = #links που εισέρχονται σε σελίδα i • x = #σελίδων με y εισερχόμενα links • y  x-2.09

  39. Power laws και στο Web? • (συνέχεια) • y = #links που εξέρχονται από σελίδα i • x = #σελίδων με y εξερχόμενα links • y  x-2.72

  40. Χρησιμότητα Παρατήρησης • Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web • Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης • Εκτέλεση προσομοιώσεων σε σχέση με το Web • Μοντελοποίηση του Web

  41. Για τον t+1 φτιάξε d συνδέσμους d>1 • Πως επιλέγεται ο ι-στος σύνδεσμος? Πιθανότητα 1-αο i-στός σύνδεσμος του v t+1 v Πιθανότητα αμια τυχαία σελίδα

  42. Γενικά • Ορισμός: Το Web Usage Miningείναι η εφαρμογή τεχνικών data mining σε δεδομένα Web με σκοπό την εξαγωγή προτύπων (patterns) που αφορούν τον τρόπο χρήσης του. • Εφαρμογές: • σχεδιασμός web sites • υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing • εξατομίκευση • μελέτες χρηστικότητας • ανάλυση της κίνησης του δικτύου • ασφάλεια • Προκλήσεις: • προεπεξεργασία της ακατέργαστης πληροφορίας • φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining

  43. Web Usage Mining Activities • Προπαρασκευή Web log (σύνολο τριπλετών (ui, pi, ti)) • Φιιλτράρισμα • Απομάκρυνση μη αξιοποιήσιμηςπληροφορίας • Χωρισμός σε συνόδους (sessions) • Σύνοδος:ακολουθία σελίδων που αναφέρονται από ένα χρήστηκατά τη διάρκεια μίας λογικής περιόδου • Προβλήματα (χρήση cookies), δομές δεδομένων (tries, patricia tries) • Αναγνώριση προτύπων • Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. • Πρότυποείναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο. • Παρόμοιο με κανόνες συσχέτισης • Συναλλαγή: σύνοδος • Itemset: πρότυπο (ήυποσύνολο) • Η σειρά είναι σημαντική • Ανάλυση προτύπων

  44. Web Log Cleansing • Replace source IP address with unique but non-identifying ID. • Replace exact URL of pages referenced with unique but non-identifying ID. • Delete error records and records containing not page data (such as figures and code)

  45. Sessionizing • Divide Web log into sessions. • Two common techniques: • Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes). • All consecutive page references from a source IP address where the interclick time is less than a predefined threshold.

More Related