760 likes | 765 Views
Discover what the "invisible" web is, including normal pages, linked pages, and hidden pages not accessible by search engines. Learn how to find invisible web pages using directories, search engines, and metasearchers. Use classification algorithms to sort databases and retrieve text content.
E N D
QProberΕξερευνώντας το Αόρατο Web Παναγιώτης Ηπειρώτης Columbia University & New York University
Τι είναι το «αόρατο» Web • «Κανονικές» σελίδες • Συνδέονται με links • Προσπελάσιμες από μηχανές αναζήτησης • «Αόρατες»σελίδες • Αποθηκευμένες σε βάσεις δεδομένων • Δεν υπάρχουν links • Μη προσπελάσιμες από μηχανές αναζήτησης
Παραδείγματα βάσεων δεδομένων με «αόρατο» περιεχόμενο • Αναζήτηση στη βάση ευρεσιτεχνιών των ΗΠΑ: [wireless network] 25,749 αποτελέσματα • (USPTO database is at http://patft.uspto.gov/netahtml/search-bool.html) • Αναζήτηση σε Google: • [wireless network site:patft.uspto.gov] 0 αποτελέσματα Μέγεθος «ορατού» Web ~ 4 δισεκατομμύρια σελίδεςΜέγεθος «αόρατου» Web ~ 500 δισεκατομμύρια σελίδες
Πώς μπορούμε να βρούμε τις «αόρατες» σελίδες; • Χρησιμοποιώντας καταλόγους όπως το Yahoo! • InvisibleWeb.com • SearchEngineGuide.com • Χρησιμοποιώντας τα κατάλληλα εργαλεία αναζήτησης: Metasearchers Οι κατάλογοι δημιουργούνταιχειρωνακτικά
Περιεχόμενα Ομιλίας • Ταξινόμηση «Αόρατων» Βάσεων Δεδομένων • Αναζήτηση σελίδων σε «Αόρατες» Βάσεις Δεδομένων
? ? ? ? ? ? ? ? Ταξινομώντας ιεραρχικά τηβάση ACM Digital Library ACM DL
Ορισμός ταξινόμησης μιας βάσης δεδομένων Μια βάση δεδομένων D ανήκει στην κατηγορία Cεάν: • Ο αριθμός των κειμένωνπου ανήκουν στην κατηγορία Cείναι μεγαλύτερος από μια σταθερά Tc (π.χ., περισσότερα από 100κείμενα ανήκουν στην κατηγορία “Computers”) • Το ποσοστό κειμένωνπου ανήκουν στην κατηγορία Cείναι μεγαλύτερος από μια σταθερά Ts (π.χ., περισσότερα από το 40%των κειμένων ανήκουν στην κατηγορία “Computers”)
Ταξινόμηση: Στόχος και Προβλήματα • Στόχος: Να βρούμε τον αριθμό των κειμένων σε κάθε κατηγορία • Προβλήματα: • Δεν έχουμε πλήρη πρόσβαση στα κείμενα που είναι αποθηκευμένα στη βάση • Η ανάκτηση κειμένων γίνεται μόνο μέσω ερωτημάτων • Δεν μπορούμε να στείλουμε μεγάλο αριθμό ερωτημάτων Μόνο ερωτήματα σχετικά με τα περιεχόμενα της βάσης επιστρέφουν μεγάλο αριθμό αποτελεσμάτων
Ταξινόμηση με Χρήση Ερωτημάτων:Ο Αλγόριθμος Περιληπτικά • Δημιουργούμε ένα ταξινομητή κειμένων • Δημιουργούμε ερωτήματα χρησιμοποιώντας τον ταξινομητή • Στέλνουμε τα κατάλληλα ερωτήματα στη βάση • Υπολογίζουμε τον αριθμό των κειμένων ανά κατηγορία • Ταξινομούμε τη βάση Δημιουργούμεταξινομητές Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμεερωτήματαστη βάση Υπολογίζουμετον αριθμόκειμένων ανά κατηγορία Ταξινομούμετη βάση
Δημιουργώντας ερωτήματα από ένα ταξινομητή κειμένων • Συγκεντρώνουμε κείμενα ταξινομημένα ανά κατηγορία • Χρησιμοποιούμε ένα από τους υπάρχοντες αλγορίθμους για να δημιουργήσουμε ένα ταξινομητή κειμένων • Βασιζόμενοι στο μοντέλο του ταξινομητή εξάγουμε κανόνες ταξινόμησης Δημιουργούμεταξινομητές Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμεερωτήματαστη βάση Έξοδος:Κανόνες για αυτόματη ταξινόμηση κειμένων Π.χ. Sports: +nba +knicks Υπολογίζουμετον αριθμόκειμένων ανά κατηγορία Ταξινομούμετη βάση Κείμενο Ταξινομητής
SIGMOD 2001 ACM TOIS 2003 Στέλνοντας τους κανόνες σαν ερωτήματα • Στέλνουμε τους κανόνες σαν ερωτήματα στη βάση, και κρατάμε μόνο τον αριθμό των αποτελεσμάτων, αγνοώντας τα κείμενα • Αυξάνουμε ανάλογα τον αριθμό των κειμένων για την αντίστοιχη κατηγορία(π.χ. #Sports = #Sports + 706) • Με βάση τα λάθη που κάνει ο ταξινομητής «διορθώνουμε» τα αποτελέσματα και υπολογίζουμε τον αριθμό των κειμένων ανά κατηγορία Δημιουργούμεταξινομητές Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμεερωτήματαστη βάση Υπολογίζουμετον αριθμόκειμένων ανά κατηγορία Ταξινομούμετη βάση
Αυτόματη ταξινόμηση βάσεων δεδομένων:Συμπεράσματα • Ο αλγόριθμος ταξινόμησης δουλεύει με πλήρως αυτόνομες βάσεις με «αόρατο» περιεχόμενο • Ακρίβεια ταξινόμησης ~75% (F-measure) • Χρειάζεται περίπου 120 ερωτήματα για να ταξινομήσει μια βάση
Περιεχόμενα Ομιλίας • Ταξινόμηση «Αόρατων» Βάσεων Δεδομένων • Αναζήτηση σελίδων σε «Αόρατες» Βάσεις Δεδομένων
? ... thrombopenia 27,960 ... ... thrombopenia 42 ... ... thrombopenia 0 ... Metasearchers Η επιλογή των βάσεωνβασίζεται σε απλά στατιστικά στοιχεία, όπως η συχνότητα με την οποία εμφανίζεται η κάθε λέξη thrombopenia PubMed (11.868.552 κείμενα) … aids 121.491 cancer 1.562.477 heart 691.360hepatitis121.129 thrombopenia 27.960 … Metasearcher PubMed NYTimesArchives USPTO
Δημιουργώντας τα στατιστικά δεδομένα • Στέλνουμε ερωτήματα στη βάση για να την ταξινομήσουμε • Δημιουργούμε ένα δείγμα, παρατηρώντας τις λέξεις που εμφανίζονται στα πρώτα 4-5 κείμενα που επιστρέφονται για κάθε ερώτημα • Συνήθως παρατηρούμε ~500 κείμενα κατά τη διαδικασία ταξινόμησης Δημιουργούμε τα στατιστικά με βάση τις λέξειςπου εμφανίζονται στα κείμενα Πρόβλημα:Στατιστικά τα οποία βασίζονται σε δειγματοληψία δεν περιλαμβάνουν πολλές λέξεις
Στατιστικά βασισμένα σε δείγματα είναι ελλιπή • Πολλές λέξεις εμφανίζονται σε πολύ λίγα κείμενα (νόμος του Zipf) • Ακόμα και λέξεις με μικρή συχνότητα είναι σημαντικές • Μικρά δείγματα δεν περιλαμβάνουν την πλειοψηφία των λέξεων Μέγεθος δείγματος: 300 Log(Συχνότητα) 107 10% των πιο συχνώνλέξεων που εμφανίζονται στηβάση δεδομένων PubMed 106 9,000 . . ……………………………………… endocarditis ~9,000 κείμενα / ~0.1% 103 102 Rank 2·104 4·104 105
Βελτιώνοντας τα στατιστικά Βασική ιδέα: Η ταξινόμηση μπορεί να βοηθήσει • Παρόμοια κατηγορία ↔ Παρόμοια στατιστικά • Στατιστικά από διαφορετικές βάσεις ταξινομημένα σε παρόμοιες κατηγορίες αλληλοσυμπληρώνονται Πρόβλημα: Πώς μπορούμε να βελτιώσουμε τα στατιστικά, χωρίς να μεγαλώσουμετο μέγεθος του δείγματος;
Βάσεις με παρόμοιο περιεχόμενο • Η βάση Cancerlit περιλαμβάνει τη λέξη “metastasis”, η οποία όμως δε βρέθηκε κατά τη δειγματοληψία • Η βάση CancerBacup περιλαμβάνει τη λέξη “metastasis” • Βάσεις που ανήκουν στην ίδια κατηγορία έχουν παρόμοιες λέξεις και μπορούν να συμπληρώσουν η μία την άλλη
Στατιστικά για κατηγορίες • Βάσεις με από ίδιες κατηγορίες έχουν παρόμοιο λεξιλόγιο • Αλλά και βάσεις από γενικές κατηγορίες είναι χρήσιμες για να δώσουν επιπρόσθετα στοιχεία για την συχνότητα εμφάνισης μιας λέξης • Μπορούμε να χρησιμοποιήσουμε εκτιμήσεις από πολλαπλές κατηγορίες
Βελτιώνοντας τα στατιστικά με τη χρήση “Shrinkage” • Στατιστικά βασισμένα μόνο σε δείγματα από τη βάση είναι γενικά μη αξιόπιστα • Στατιστικά για τις κατηγορίες είναι βασισμένα σε μεγαλύτερα δείγματα, άρα πιο αξιόπιστα, αλλά λιγότερο αντιπροσωπευτικά για τη βάση • Συνδυάζοντας στατιστικά από τη βάση και από τις κατηγορίες μπορούμε να εξάγουμε καλύτερες εκτιμήσεις
Στατιστικά βασισμένα σε Shrinkage Δημιουργούμε νέες εκτιμήσεις για την πιθανότηταεμφάνισης των λέξεων Pr [metastasis | D] = λ1 * 0.002 +λ2 * 0.05 + λ3 * 0.092+ λ4 * 0.000 Υπολογίζουμε τα βάρηλiχρησιμοποιώνταςέναν EM αλγόριθμο, και μεγιστοποιούμε τηνπιθανότητα η βάση D να ανήκει σε όλες τις «πατρικές» κατηγορίες
Αποτελέσματα χρήσης Shrinkage νέα εκτίμηση αρχικήεκτίμηση • Αυξάνει τις εκτιμήσεις για λέξεις που υποεκτιμήθηκαν (π.χ. metastasis) • Μειώνει τις εκτιμήσεις για λέξεις που υπερεκτιμήθηκαν (π.χ. aids) • … (σπάνια) προκαλεί την εμφάνιση λέξεων που δεν υπάρχουν στη βάση
Αναζήτηση σελίδων σε «Αόρατες» Βάσεις Δεδομένων: Συμπεράσματα Παρουσιάσαμε μια τεχνική δειγματοληψίας που: • Ταξινομεί αυτόματα σε ένα ιεραρχικό κατάλογο, και παράλληλα • Δημιουργεί πλήρη στατιστικά για βάσεις δεδομένων με «αόρατο» περιεχόμενο • Τα στατιστικά βοηθούνε σε γρήγορη αναζήτηση όταν υπάρχουν χιλιάδες διαθέσιμες βάσεις • Δεν απαιτείται η συνεργασία των βάσεων (π.χ. χρήση ειδικών πρωτοκόλλων) • Η τεχνική shrinkage βελτιώνει τα στατιστικά χωρίς να αυξάνει το μέγεθος του δείγματος • Τα αποτελέσματα της αναζήτησης περιέχουν έως και 100% περισσότερα χρήσιμα κείμενα
Ερωτήσεις; Όλοι οι αλγόριθμοι είναι υλοποιημένοι και διαθέσιμοι για χρήση: http://sdarts.cs.columbia.edu Παναγιώτης Ηπειρώτηςhttp://www.cs.columbia.edu/~pirot
Παναγιώτης Ηπειρώτηςhttp://www.cs.columbia.edu/~pirot Classification and Search of Hidden-Web Databases • P. Ipeirotis, L. Gravano, When one Sample is not Enough: Improving Text Database Selection using Shrinkage[SIGMOD 2004] • L. Gravano, P. Ipeirotis, M. Sahami QProber: A System for Automatic Classification of Hidden-Web Databases[ACM TOIS 2003] • E. Agichtein, P. Ipeirotis, L. Gravano Modelling Query-Based Access to Text Databases[WebDB 2003] • P. Ipeirotis, L. Gravano Distributed Search over the Hidden-Web: Hierarchical Database Sampling and Selection[VLDB 2002] • L. Gravano, P. Ipeirotis, M. Sahami Query- vs. Crawling-based Classification of Searchable Web Databases[DEB 2002] • P. Ipeirotis, L. Gravano, M. Sahami Probe, Count, and Classify: Categorizing Hidden-Web Databases [SIGMOD 2001] Approximate Text Matching • L. Gravano, P. Ipeirotis, N. Koudas, D. Srivastava Text Joins in an RDBMS for Web Data Integration [WWW2003] • L. Gravano, P. Ipeirotis, H.V. Jagadish, N. Koudas, S. Muthukrishnan, D. Srivastava Approximate String Joins in a Database (Almost) for Free[VLDB 2001] • L. Gravano, P. Ipeirotis, H.V. Jagadish, N. Koudas, S. Muthukrishnan, D. Srivastava, L. Pietarinen Using q-grams in a DBMS for Approximate String Processing[DEB 2001] SDARTS: Protocol & Toolkit for Metasearching • N. Green, P. Ipeirotis, L. Gravano SDLIP + STARTS = SDARTS. A Protocol and Toolkit for Metasearching[JCDL 2001] • P. Ipeirotis, T. Barry, L. Gravano Extending SDARTS: Extracting Metadata from Web Databases and Interfacing with the Open Archives Initiative[JCDL 2002]
Is Shrinkage Always Necessary? • Shrinkage used to reduce uncertainty (variance) of estimations • Small samples of large databases high variance • In sample: 10 out of 100 documents contain metastasis • In database: ? out of 10,000,000 documents? • Small samples of small databases small variance • In sample: 10 out of 100 documents contain metastasis • In database: ? out of 200 documents? • Shrinkage less useful (or even harmful) when uncertainty is low
Adaptive Application of Shrinkage • Database selection algorithms assign scores to databases for each query • When word frequency estimates are uncertain, assigned score has high variance • shrinkage improves score estimates • When word frequency estimates are reliable, assigned score has small variance • shrinkage unnecessary Unreliable Score Estimate: Use shrinkage Probability 0 1 Database Score for a Query Reliable Score Estimate: Shrinkage might hurt Probability Solution: Use shrinkage adaptively in a query- and database-specific manner 0 1 Database Score for a Query
Searching Algorithm Extract document samples Get database classification Compute shrinkage-based summaries One-time process To process a query Q: • For each database D: • Use a regular database selection algorithm to compute query score for D using old, “unshrunk” summary • Analyze uncertainty of score • If uncertainty high, use new, shrinkage-based summary instead and compute new query score for D • Evaluate Q over top-k scoring databases For every query
Υπολογίζοντας τον αριθμό κειμένων ανά κατηγορία Η προσέγγιση που παίρνουμε χρησιμοποιώντας μόνο τα αποτελέσματα των ερωτημάτων δεν είναι τέλεια: • Οι ταξινομητές δεν είναι τέλειοι: • Οι λέξεις σε ένα κανόναμπορεί να εμφανιστούν σε κείμενο άλλης κατηγορίας • Τα ερωτήματα δεν είναι τέλεια: • Διαφορετικά ερωτήματα μπορεί να επιστρέψουν τα ίδια κείμενα • Μερικά κείμενα στη βάση δεν θα επιστραφούν ως απάντηση σε κανένα ερώτημα Δημιουργούμεταξινομητές Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμεερωτήματαστη βάση Υπολογίζουμετον αριθμόκειμένων ανά κατηγορία Λύση: Μαθαίνουμε να διορθώνουμε τα λάθη των ταξινομητών Ταξινομούμετη βάση
Confusion Matrixγια καλύτερη of Query Probe Results Σωστή κατηγορία Ακριβής (αλλά άγνωστη) κατανομή κειμένων Προσεγγιστική κατανομήμε βάση τα αποτελέσματα των ερωτημάτων 800+500+0 = X = 80+4250+2 = 20+750+48 = Ανατεθείσα κατηγορία Ο «πολλαπλασιασμός» είναι δυνατό να «αναστραφεί» ώστε να υπολογίσουμεμια καλύτερη προσέγγιση της κατανομήςτων κειμένων ανά κατηγορία 10% των κειμένων από την κατηγορία “sport” ταξινομήθηκαν ως “computers”
Ταξινόμηση με Χρήση Ερωτημάτων:Ο Αλγόριθμος Περιληπτικά • Δημιουργούμε ένα ταξινομητή κειμένων • Δημιουργούμε ερωτήματα χρησιμοποιώντας τον ταξινομητή • Στέλνουμε τα κατάλληλα ερωτήματα στη βάση • Υπολογίζουμε τον αριθμό των κειμένων ανά κατηγορία • Ταξινομούμε τη βάση Δημιουργούμεταξινομητές Μόνο μιαφορά Δημιουργούμε ερωτήματα Sports: +nba +knicks Health +sars Στέλνουμεερωτήματαστη βάση Υπολογίζουμετον αριθμόκειμένων ανά κατηγορία Για κάθε βάση Ταξινομούμετη βάση
Sample Frequencies vs. Actual Frequencies Problem 2: Frequencies in summary “compressed” to sample size range PubMed (11,868,552 docs) …cancer 1,562,477 heart 691,360… PubMed Sample (300 documents) … cancer 45 heart 16… Sampling Key Observation: Query matches reveal frequency information
Adjusting Document Frequencies • Zipf’s lawempiricallyconnects word frequency f and rank r f= A (r + B) c frequency rank VLDB 2002
Adjusting Document Frequencies • Zipf’s lawempiricallyconnects word frequency f and rank r • We know document frequency and rank r of the words in sample f= A (r + B) c frequency Frequency in sample 100 rank 1 12 78 …. VLDB 2002 Rank in sample
Adjusting Document Frequencies • Zipf’s lawempiricallyconnects word frequency f and rank r • We know document frequency and rank r of the words in sample • We know real document frequency f of some words from one-word queries frequency f= A (r + B) c Frequency in database rank 1 12 78 …. VLDB 2002 Rank in sample
Adjusting Document Frequencies • Zipf’s lawempiricallyconnects word frequency f and rank r • We know document frequency and rank r of the words in sample • We know real document frequency f of some words from one-word queries • We use curve-fitting to estimate the absolute frequency of all words in sample f= A (r + B) c frequency Estimated frequency in database rank 1 12 78 …. VLDB 2002
Actual PubMed Content Summary • Extracted automatically • ~ 27,500 words in extracted content summary • Fewer than 200 queries sent • At most 4 documents retrieved per query PubMedcontent summary Number of Documents: 8,691,360 (Actual: 11,868,552) Category: Health, Diseases … cancer 1,562,477 heart581,506 (Actual: 691,360) aids 121,491 hepatitis73,481 (Actual: 121,129) … basketball 907 (Actual: 1,063) cpu 598 (heart, hepatitis, basketball not in 1-word probes)
Sampling and Incomplete Content Summaries Problem 3: Summaries from small samples are highly incomplete • Many words appear in “relatively few” documents (Zipf’s law) • Low-frequency words are often important • Small document samples miss many low-frequency words Sample=300 Log(Frequency) 107 106 Frequency & rank of 10% most frequent words in PubMed database 9,000 . . aphasia ~9,000 docs / ~0.1% 103 102 Rank 2·104 4·104 105
Sample-based Content Summaries Main Idea: Database Classification Helps • Similar topics ↔ Similar content summaries • Extracted content summaries complement each other Challenge: Improve content summary quality without increasing sample size
Databases with Similar Topics • CANCERLIT` contains “metastasis”, not found during sampling • CancerBACUP contains “metastasis” • Databases under same category have similar vocabularies, and can complement each other
Content Summaries for Categories • Databases under same category share similar vocabulary • Higher level category content summaries provide additional useful estimates • All estimates in category path are potentially useful
Enhancing Summaries Using “Shrinkage” • Estimates from database content summaries can be unreliable • Category content summaries are more reliable (based on larger samples) but less specific to database • By combining estimates from category and database content summaries we get better estimates SIGMOD 2004
Shrinkage-based Estimations Adjust estimate for metastasis in D: λ1 * 0.002 +λ2 * 0.05 + λ3 * 0.092+ λ4 * 0.000 Select λi weights to maximize the probability that the summary of D is from a database under all its parent categories Avoids “sparse data” problem and decreases estimation risk
Adaptive Application of Shrinkage • Database selection algorithms assign scores to databases for each query • When frequency estimates are uncertain, assigned score is uncertain… • …but sometimes confidence about assigned score is high • When confident about score, shrinkage unnecessary Unreliable Score Estimate: Use shrinkage Probability 0 1 Database Score for a Query Reliable Score Estimate: Shrinkage might hurt Probability 0 1 Database Score for a Query
Extracting Content Summaries: Problems Solved Problem 1:Random sampling may retrieve non-representative documents Solution: Focus querying on “topically dense” areas of the database Problem 2: Frequencies are “compressed” to the sample size range Solution: Exploit number of matches for query and adjust estimates using curve fitting Problem 3: Summaries based on small samples are highly incomplete Solution: Exploit database classification and augment summaries using samples from topically similar databases
Searching Algorithm Classify databases and extract document samples Adjust frequencies in samples One-time process For each query: For each database D: • Assign score to database D (using extracted content summary) • Examine uncertainty of score • If uncertainty high, apply shrinkage and give new score; else keep existing score Query only top-K scoring databases For every query
Experimental Setup • Two standard testbeds from TREC (“Text Retrieval Conference”): • 200 databases • 100 queries with associated human-assigned document relevance judgments • Two sets of experiments: • Content summary quality Metrics: precision, recall, Spearman correlation coefficient, KL-divergence • Database selection accuracy Metric: fraction of relevant documents for queries in top-scored databases SIGMOD 2004
Experimental Results Content summary quality: • Shrinkageimproves quality of content summaries without increasing sample size • Frequency estimation gives accurate (within ±20%) estimates of actual frequencies Database selection accuracy: • Frequency estimation: Improves performance by 20%-30% • Focused sampling: Improves performance by 40%-50% • Adaptive application of shrinkage: Improves performance up to 100% • Shrinkage is robust: Improved performance consistently across many different configurations
Other Experiments • Additional data set: 315 real Web databases • Choice of database selection algorithm (CORI, bGlOSS, Language Modeling) • Effect of stemming • Effect of stop-word elimination SIGMOD 2004