470 likes | 607 Views
Web Mining. Web Mining. Στόχος : μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού ( Web Content Mining ) Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού ( Web Structure Mining )
E N D
Web Mining • Στόχος: μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο Ιστό • Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού (Web Content Mining) • Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού (Web Structure Mining) • Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού (Web Usage Mining)
Web Mining Εισαγωγή • Τεράστιο μέγεθος • 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες • Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις http://www.netcraft.com/Survey
The Web Web Data • No design/co-ordination • Distributed content creation, linking, democratization of publishing • Content includes truth, lies, obsolete information, contradictions … • Unstructured (text, html, …), semi-structured (XML, annotated photos), structured (Databases)… • Scale much larger than previous text corpora, and also corporate records are catching up. • Growth – slowed down from initial “volume doubling every few months” but still expanding • Content can be dynamically generated
Web Content Mining • Βασικό συστατικότων μηχανών αναζήτησης • Εφαρμογές • Ιεραρχίες εννοιών και συνώνυμα • Προφίλ χρηστών • Ανάλυση συνδέσμου μεταξύ σελίδων • Τεχνικής περιληπτικής παρουσίασης πληροφορίας μέσω λέξεων κλειδιών • Δύο κατηγοριών (βασισμένή σε πράκτορες, βασισμένη σε συστήματα βάσεων δεδομένων)
Keyword Term Association Similarity Search Classification Clustering Natural Language Processing
Crawlers • Robot (spider)διαπερνά την υπερκειμενική δομή του παγκόσμιου ιστού, συλλέγοντας πληροφορίας • Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή. • Περιοδικός Crawler – επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή. • Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή. • Εστιασμένος Crawler – επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο.
Διαπερνώντας το διαδίκτυο (Crawling) Διαπερνώντας τον Παγκόσμιο Ιστό • ποιες σελίδες πρέπει να προσπελαστούν ; • τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; • (refresh policy) • πωςπραγματοποιείται εστιασμένη διαπέραση;
URLs crawled and parsed Unseen Web Seed Pages URL frontier Crawling thread
Crawling - Επιλογή Σελίδων – Μετρικές Σημαντικότητας Interest Driven Searching the Web
Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Interest Driven & Ομοιότητα Κειμένων “A new approach to topic-specific web resource discovery” Chakrabarti et al. 8th WWW conference 1999 Searching the Web
Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας Popularity Driven Location Driven
Crawling - Ανανέωση Σελίδων • f=σταθερή • f=F(λi)
Focused Crawler • Χρήση ιεραρχικής ταξινόμησης • Χρήση απλοϊκού κατηγοριοποιητή κατά Bayes • Βασική ιδέα: o προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός
Context Focused Crawler (εστιασμένος σε συμφραζόμενα crawler) • Γράφος Συμφραζομένων (Context Graph): • Δημιουργείται για κάθε γόνο(seed document) με ρίζα αυτόν • Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα με συνδέσμους σε κείμενα του επομένου επιπέδου • Ενημερώνεται κατά τη διάρκεια της διαπέρασης • Συγχώνευσε και δημιούργησε ένα ενιαίο context graph • Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους classifiers και τον ενιαίο context graph
Προβλήματα • Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες. • Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτές
Context Graph Χρήση tf-idf μετρικής
Υπερβατική όψη Παγκόσμιου Ιστού (προσέγγιση Β.Δ.) • Πολλαπλών Επιπέδων Βάση Δεδομένων (MLDB)πάνω από τα δεδομένα του παγκόσμιου ιστού. • Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). • Τα ανωτέρω επίπεδα της MLDB είναι δομημένα και μπορούν να προσπελαστούν με SQL type queries. • Δεν απαιτείται η χρήση spiders, υπεύθυνοι για ενημέρωση οι εξυπηρετητές • Εργαλεία μετάφρασης μετατρέπουν τα Web documents σε XML και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. • Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – χρήση WebML.
Εξατομίκευση • Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστη. • Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. • Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες . • Το φιλτράρισμα με βάση το περιεχόμενοανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών.
Web Structure Mining • Εξόρυξη Δομής (σύνδεσμοι, γράφημα) του παγκόσμιου ιστού • Τεχνικές • PageRank • CLEVER • Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού. • Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να ανακτήσει σημαντικές σελίδες.
Ranking and Link Analysis O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία ! • PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google) • HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever – IBM). Searching the Web
PageRank • Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της(αριθμό υπερδεσμών εισόδου ή συνολικό αριθμό υπερδεσμών εισόδου και εξόδου) www.upatras.gr #in_links=760 www.stanford.edu #in_links=33600 www.upatras.gr www.stanford.edu Searching the Web
PageRank strongly connected graph
PageRank • random surfer model Searching the Web
PageRank • random surfer model Searching the Web
Λεπτομέρειες Υπολογισμού (1) • Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και έναnnπιθανοτικό πίνακα μεταβάσεωνP. • Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις. • Για1 i,j n, το στοιχείοPijμας δίνει τη πιθανότητα τοjνα βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i. • Μία Markov chain είναι εργοδική εάν • Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη • Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή με μη μηδενική πιθανότητα.
Λεπτομέρειες Υπολογισμού (2) • Για κάθεεργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution. • Έστω a = (a1, … an) το row vector με τις steady-state πιθανότητες. • Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP. • Άρα a=aP, και συνεπώς • το a είναι το (αριστερό) ιδιοδιάνυσματου P. • (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη μεγαλύτερη ιδιοτιμή.)
Hypertext Induced Topic Search (HITS) • Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q. authority hub Q=“greek university” Authority : www.upatras.gr www.auth.gr students.ceid.upatras.gr/~antonid Hub: www.gunet.gr Universities Worldwide http://geowww.uibk.ac.at/univ/world.html www.cti.gr Searching the Web
Hypertext Induced Topic Search (HITS) Απάντηση στο Q S: focused subgraph RS: root set (~103) max{d} Searching the Web
Hypertext Induced Topic Search (HITS) Searching the Web
Graph structure in the Web,Computer Networks,2000. Andrei Broder, Ravi Kumar, et al. Searching the Web
Για τυχαίες σελίδεςp1,p2: • Pr[p1να προσπελαύνεται απόp2] ~ 1/4 • Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28 • Μέση κατευθυνόμενη απόσταση μεταξύ2 κόμβων: ~16 • Μέση μη κατευθυνόμενη απόσταση: ~7
Power Laws - Γενικά • Δύο ποσότητες x και y συνδέονται με έναν power law όταν • y x-c log y = -c*log x
Ένας γνωστός power law • Κατανομή Zipf • y : συχνότητα λέξης σε κείμενο • x : o x-οστός πιο συχνός όρος • Power law για c=1 • y 1/x
Power laws και στο Web? • Broderet. al. 1999 • y = #links που εισέρχονται σε σελίδα i • x = #σελίδων με y εισερχόμενα links • y x-2.09
Power laws και στο Web? • (συνέχεια) • y = #links που εξέρχονται από σελίδα i • x = #σελίδων με y εξερχόμενα links • y x-2.72
Χρησιμότητα Παρατήρησης • Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web • Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης • Εκτέλεση προσομοιώσεων σε σχέση με το Web • Μοντελοποίηση του Web
Για τον t+1 φτιάξε d συνδέσμους d>1 • Πως επιλέγεται ο ι-στος σύνδεσμος? Πιθανότητα 1-αο i-στός σύνδεσμος του v t+1 v Πιθανότητα αμια τυχαία σελίδα
Γενικά • Ορισμός: Το Web Usage Miningείναι η εφαρμογή τεχνικών data mining σε δεδομένα Web με σκοπό την εξαγωγή προτύπων (patterns) που αφορούν τον τρόπο χρήσης του. • Εφαρμογές: • σχεδιασμός web sites • υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων marketing • εξατομίκευση • μελέτες χρηστικότητας • ανάλυση της κίνησης του δικτύου • ασφάλεια • Προκλήσεις: • προεπεξεργασία της ακατέργαστης πληροφορίας • φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data mining
Web Usage Mining Activities • Προπαρασκευή Web log (σύνολο τριπλετών (ui, pi, ti)) • Φιιλτράρισμα • Απομάκρυνση μη αξιοποιήσιμηςπληροφορίας • Χωρισμός σε συνόδους (sessions) • Σύνοδος:ακολουθία σελίδων που αναφέρονται από ένα χρήστηκατά τη διάρκεια μίας λογικής περιόδου • Προβλήματα (χρήση cookies), δομές δεδομένων (tries, patricia tries) • Αναγνώριση προτύπων • Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. • Πρότυποείναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο. • Παρόμοιο με κανόνες συσχέτισης • Συναλλαγή: σύνοδος • Itemset: πρότυπο (ήυποσύνολο) • Η σειρά είναι σημαντική • Ανάλυση προτύπων
Web Log Cleansing • Replace source IP address with unique but non-identifying ID. • Replace exact URL of pages referenced with unique but non-identifying ID. • Delete error records and records containing not page data (such as figures and code)
Sessionizing • Divide Web log into sessions. • Two common techniques: • Number of consecutive page references from a source IP address occurring within a predefined time interval (e.g. 25 minutes). • All consecutive page references from a source IP address where the interclick time is less than a predefined threshold.