Web Mining

Web Mining

Web Mining • Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό • Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού (Web Content Mining) • Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού (Web Structure Mining) • Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού (Web Usage Mining)

Web Mining Εισαγωγή • Τεράστιο μέγεθος • 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες • Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις http://www.netcraft.com/Survey

The Web Web Data • No design/co-ordination • Distributed content creation, linking, democratization of publishing • Content includes truth, lies, obsolete information, contradictions … • Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)… • Scale much larger than previous text corpora, and also corporate records are catching up. • Growth – slowed down from initial “volume doubling every few months” but still expanding • Content can be dynamically generated

Web Mining Taxonomy

Web Content Mining • Βασικό συστατικότων μηχανών αναζήτησης • Εφαρμογές • Ιεραρχίες εννοιών και συνώνυμα • Προφίλ χρηστών • Ανάλυση συνδέσμου μεταξύ σελίδων • Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών • Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων)

Keyword Term Association Similarity Search Classification Clustering Natural Language Processing

Crawlers • Robot (spider)διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας • Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή. • Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή. • Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή. • Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο.

Διαπερνώντας το διαδίκτυο (Crawling) Διαπερνώντας τον Παγκόσμιο Ιστό • ποιες σελίδες πρέπει να προσπελαστούν ; • τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; • (refresh policy) • πωςπραγματοποιείται εστιασμένη διαπέραση;

URLs crawled and parsed Unseen Web Seed Pages URL frontier Crawling thread

Crawling - Επιλογή Σελίδων – Μετρικές Σημαντικότητας Interest Driven Searching the Web

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Interest Driven & Ομοιότητα Κειμένων “A new approach to topic-specific web resource discovery” Chakrabarti et al. 8th WWW conference 1999 Searching the Web

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Popularity Driven Location Driven

Crawling - Ανανέωση Σελίδων • f=σταθερή • f=F(λi)

Focused Crawler • Χρήση ιεραρχικής ταξινόμησης • Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes • Βασική ιδέα: o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός

Context Focused Crawler (εστιασμένος σε συμφραζόμενα crawler) • Γράφος Συμφραζομένων (Context Graph): • Δημιουργείται για κάθε γόνο(seed document) με ρίζα αυτόν • Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου • Ενημερώνεται κατά τη διάρκεια της διαπέρασης • Συγχώνευσε και δημιούργησε ένα ενιαίο context graph • Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph

Προβλήματα • Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες. • Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές

Context Graph Χρήση tf-idf μετρικής

Υπερβατική όψη Παγκόσμιου Ιστού (προσέγγιση Β.Δ.) • Πολλαπλών Επιπέδων Βάση Δεδομένων (MLDB)πάνω από τα δεδομένα του παγκόσμιου ιστού. • Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). • Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries. • Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές • Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. • Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML.

Εξατομίκευση • Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη. • Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. • Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες . • Το φιλτράρισμα με βάση το περιεχόμενοανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών.

Web Structure Mining • Εξόρυξη Δομής (σύνδεσμοι, γράφημα) του παγκόσμιου ιστού • Τεχνικές • PageRank • CLEVER • Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού. • Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες.

Ranking and Link Analysis O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία ! • PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google) • HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever – IBM). Searching the Web

PageRank • Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της(αριθμό υπερδεσμών εισόδου ή συνολικό αριθμό υπερδεσμών εισόδου και εξόδου) www.upatras.gr #in_links=760 www.stanford.edu #in_links=33600 www.upatras.gr www.stanford.edu Searching the Web

PageRank strongly connected graph

PageRank • random surfer model Searching the Web

Λεπτομέρειες Υπολογισμού (1) • Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και έναnnπιθανοτικό πίνακα μεταβάσεωνP. • Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις. • Για1  i,j  n, το στοιχείοPijμας δίνει τη πιθανότητα τοjνα βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i. • Μία Markov chain είναι εργοδική εάν • Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη • Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα.

Λεπτομέρειες Υπολογισμού (2) • Για κάθεεργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution. • Έστω a = (a1, … an) το row vector με τις steady-state πιθανότητες. • Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP. • Άρα a=aP, και συνεπώς • το a είναι το (αριστερό) ιδιοδιάνυσματου P. • (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή.)

Hypertext Induced Topic Search (HITS) • Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q. authority hub Q=“greek university” Authority : www.upatras.gr www.auth.gr students.ceid.upatras.gr/~antonid Hub: www.gunet.gr Universities Worldwide http://geowww.uibk.ac.at/univ/world.html www.cti.gr Searching the Web

Hypertext Induced Topic Search (HITS) Απάντηση στο Q S: focused subgraph RS: root set (~103) max{d} Searching the Web

Hypertext Induced Topic Search (HITS)

Hypertext Induced Topic Search (HITS) Searching the Web

Hypertext Induced Topic Search (HITS)

Graph structure in the Web,Computer Networks,2000. Andrei Broder, Ravi Kumar, et al. Searching the Web

Για τυχαίες σελίδεςp1,p2: • Pr[p1να προσπελαύνεται απόp2] ~ 1/4 • Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28 • Μέση κατευθυνόμενη απόσταση μεταξύ2 κόμβων: ~16 • Μέση μη κατευθυνόμενη απόσταση: ~7

Power Laws - Γενικά • Δύο ποσότητες x και y συνδέονται με έναν power law όταν • y  x-c  log y = -c*log x

Ένας γνωστός power law • Κατανομή Zipf • y : συχνότητα λέξης σε κείμενο • x : o x-οστός πιο συχνός όρος • Power law για c=1 • y  1/x

Power laws και στο Web? • Broderet. al. 1999 • y = #links που εισέρχονται σε σελίδα i • x = #σελίδων με y εισερχόμενα links • y  x-2.09

Power laws και στο Web? • (συνέχεια) • y = #links που εξέρχονται από σελίδα i • x = #σελίδων με y εξερχόμενα links • y  x-2.72

Χρησιμότητα Παρατήρησης • Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web • Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης • Εκτέλεση προσομοιώσεων σε σχέση με το Web • Μοντελοποίηση του Web

Για τον t+1 φτιάξε d συνδέσμους d>1 • Πως επιλέγεται ο ι-στος σύνδεσμος? Πιθανότητα 1-αο i-στός σύνδεσμος του v t+1 v Πιθανότητα αμια τυχαία σελίδα

Γενικά • Ορισμός: Το Web Usage Miningείναι η εφαρμογή τεχνικών data mining σε δεδομένα Web με σκοπό την εξαγωγή προτύπων (patterns) που αφορούν τον τρόπο χρήσης του. • Εφαρμογές: • σχεδιασμός web sites • υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing • εξατομίκευση • μελέτες χρηστικότητας • ανάλυση της κίνησης του δικτύου • ασφάλεια • Προκλήσεις: • προεπεξεργασία της ακατέργαστης πληροφορίας • φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining

Web Usage Mining Activities • Προπαρασκευή Web log (σύνολο τριπλετών (ui, pi, ti)) • Φιιλτράρισμα • Απομάκρυνση μη αξιοποιήσιμηςπληροφορίας • Χωρισμός σε συνόδους (sessions) • Σύνοδος:ακολουθία σελίδων που αναφέρονται από ένα χρήστηκατά τη διάρκεια μίας λογικής περιόδου • Προβλήματα (χρήση cookies), δομές δεδομένων (tries, patricia tries) • Αναγνώριση προτύπων • Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. • Πρότυποείναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο. • Παρόμοιο με κανόνες συσχέτισης • Συναλλαγή: σύνοδος • Itemset: πρότυπο (ήυποσύνολο) • Η σειρά είναι σημαντική • Ανάλυση προτύπων

Web Log Cleansing • Replace source IP address with unique but non-identifying ID. • Replace exact URL of pages referenced with unique but non-identifying ID. • Delete error records and records containing not page data (such as figures and code)

Sessionizing • Divide Web log into sessions. • Two common techniques: • Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes). • All consecutive page references from a source IP address where the interclick time is less than a predefined threshold.

Web Mining

Web Mining

Presentation Transcript

Web Mining

Web Mining

WEB MINING

Web Mining

Web Mining

Web Mining

Web Mining

Web Mining

Web mining

Web Mining

Web Mining

Web Mining

Web Mining

Web Mining

Web Mining

WEB MINING

Web Mining

Web Mining

Web Mining

Web Mining

WEB MINING

WEB MINING