250 likes | 493 Views
ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ. Βουχάρα Τάνια(6306Μ002) Εισαγωγικά Θέματα World Wide Web Χειμερινό εξάμηνο 2006-07. Εισαγωγικά. Ραγδαία εξάπλωση Διαδικτύου > συνεχής μεταβολή και αύξηση του όγκου της πληροφορίας. Εμπορικές, εκπαιδευτικές, ενημερωτικές και ψυχαγωγικές χρήσεις.
E N D
ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ Βουχάρα Τάνια(6306Μ002) Εισαγωγικά Θέματα World Wide Web Χειμερινό εξάμηνο 2006-07
Εισαγωγικά • Ραγδαία εξάπλωση Διαδικτύου > συνεχής μεταβολή και αύξηση του όγκου της πληροφορίας. Εμπορικές, εκπαιδευτικές, ενημερωτικές και ψυχαγωγικές χρήσεις. • Αύξηση των χρηστών > πρόβλημα ευρέσεως της χρήσιμης ή επιθυμητής πληροφορίας. • Μηχανές Αναζήτησης: εργαλεία για την αναζήτηση της πληροφορίας στον Ιστό. • Ενδεικτικά: Google, Yahoo!, Ask.com, MSN Search, Robby, Anazitisis.
Ιστορική αναδρομή • 1990 – 1992 > Archie, Gopher, Veronica. • 1993 > WebCrawler. • 1994 > Yahoo, Lycos. • 1995 > AltaVista, Infoseek, Excite αλλά και οι πρώτες μετα-μηχανές MetaCrawler, SavvySearch. • 1996 > Inktomi, HotBot. • 1997 > AskJeeves (απ’ το 2005 Ask.com), Northern Light. • 1998 > Google, MSN Search (Windows Live Search).
Λειτουργία Μ.Α. (1)Δομή • Spider (ή Crawler ή Robot) > πρόγραμμα υπεύθυνο για τον εντοπισμό των ιστοσελίδων. Αφού τις «διαβάσει» ακολουθεί τους συνδέσμους (links) των ιστοσελίδων αυτών προς άλλες. • Indexers > σαρώνουν τις ιστοσελίδες που εντοπίζουν οι spiders αξιολογώντας το κείμενο, τα links και άλλα στοιχεία και κρατούν ένα αντίγραφο στη βάση δεδομένων (index) της Μ.Α. • Query processor > ψάχνει στη βάση δεδομένων της Μ.Α για να βρει ιστοσελίδες σχετικές με τις λέξεις – κλειδιά που πληκτρολόγησε ο χρήστης.
Λειτουργία Μ.Α.(2)Καταχώρηση ιστοσελίδων 4 τρόποιγια την καταχώρηση ενός web site σε μία Μ.Α. • «Χειρωνακτικά» από τον ιδιοκτήτη του δικτυακού τόπου. • Με τη βοήθεια ειδικών προγραμμάτων (π.χ. SignPoster). • Να βρει η Μ.Α. την ιστοσελίδα μόνη της μέσω συνδέσμων από άλλους δικτυακούς τόπους, που δείχνουν προς αυτήν. • Να πληρώσει ο ιδιοκτήτης του web site την εταιρεία της Μ.Α. Ωστόσο, διαφορετικές προϋποθέσεις θέτει η εκάστοτε Μ.Α. για να συμπεριλάβει μία ιστοσελίδα στον κατάλογό της.
Λειτουργία Μ.Α.(3) • Ο χρήστης πληκτρολογεί στο ενδεδειγμένο πεδίο λέξεις – κλειδιά. Δυνατότητα χρήσης τελεστών(Booleans): AND, OR, NOT, NEAR. Advanced Search. • Η Μ.Α. δεν ψάχνει τον Ιστό αλλά τη δική της βάση δεδομένων. • Τα αποτελέσματα επιστρέφονται στο χρήστη με τη μορφή μίας λίστας με links στις αντίστοιχες σελίδες.
Λειτουργία Μ.Α.(4)Κριτήρια ιεράρχησης αποτελεσμάτων • Κάθε Μ.Α. χρησιμοποιεί αλγόριθμους ταξινόμησης. Ο ακριβής τρόπος λειτουργίας τους δεν είναι γνωστός. Γενικά, παίζουν ρόλο τα εξής: • Συνάφεια (τοποθεσία και συχνότητα λέξεων – κλειδιών σε μία ιστοσελίδα) > φυσικά ή οργανικά αποτελέσματα. • Ανάλυση υπερσυνδέσεων. • Δημοτικότητα μιας ιστοσελίδας (link popularity). • Ποιότητα περιεχομένου ιστοσελίδας. • Πληρωμένη καταχώρηση (Paid Inclusion, Paid Search, Pay Per Click).
PageRank αλγόριθμος • Αλγόριθμος με βάση τον οποίο το Google αναλύει τον τρόπο διασύνδεσης των ιστοσελίδων. • Αξιολογεί τη σημαντικότητα μιας ιστοσελίδας με βάση τα inbound(τα links που κατευθύνονται προς μία ιστοσελίδα) και outbound (τα links μιας ιστοσελίδας που οδηγούν σε άλλες) links. • Ευάλωτο σε έξωθεν χειρισμούς.
Search Engine Optimization • S.E.O. τεχνικές: μέθοδοι προώθησης ιστοσελίδων μέσω της ευνοϊκής τους κατάταξης στις Μ.Α. White hat S.E.O. > αποδεκτές τεχνικές. Black hat S.E.O. • Cloaking • Τοποθέτηση κρυμμένου κειμένου • Χρήση doorway ή gateway σελίδων • Spamdexing (Link Farms, Page Hijacking) • Google Bombing
Το αόρατο διαδίκτυο (Deep Web) • Deep Web ή Invisible Web ή Deepnet: περιεχόμενο του Ιστού που οι crawlers αδυνατούν να προσπελάσουν. 2 με 3 φορές μεγαλύτερο απ’ το «ορατό» Διαδίκτυο. Πηγές Deep Web • Δυναμικές ιστοσελίδες. • Ιστοσελίδες χωρίς inbound links. • Περιεχόμενο περιορισμένης πρόσβασης. • Μη-κειμενικό περιεχόμενο. • JavaScript ή Flash περιεχόμενο.
Θεματικοί Κατάλογοι(Directories) • Ο εντοπισμός, η αξιολόγηση και η κατάταξη των δικτυακών τόπων γίνεται από ομάδα ατόμων υπεύθυνη γι’ αυτή την εργασία. • Δεν εγγράφουν όλες τις ιστοσελίδες στην ίδια βάση δεδομένων αλλά τις κατατάσσουν σε θεματικές κατηγορίες. • Συνήθως, οι υπηρεσίες αναζήτησης είναι «υβριδικές» (hybrid) > μορφές μεταξύ Μ.Α. και Θ.Κ.
Μεταμηχανές Αναζήτησης • Δεν διαθέτουν δικό τους ευρετήριο αλλά αντλούν τα αποτελέσματα τους από τα ευρετήρια άλλων μηχανών αναζήτησης. • Παραδείγματα: DogPile, SavvySearch, MetaCrawler. • Πλεονεκτήματα: ευρεία κάλυψη θέματος, επιστροφή απαντήσεων σε ασαφείς ερωτήσεις που μία απλή μηχανή μπορεί να «χάσει». • Μειονεκτήματα: ενδείκνυνται για απλές αναζητήσεις.
Δημοφιλείς Μηχανές ΑναζήτησηςΣυγκριτική Παρουσίαση
Βελτιώσεις / Εξελίξεις • Προσπάθεια σάρωσης του Deep Web > Yahoo! Subscriptions, Google’ s Sitemap Protocol. • Δυνατότητα για προσωποποίηση των αποτελεσμάτων π.χ. Google Desktop. • Προσπάθεια αντιμετώπισης του spamdexing > ομαδοποιημένα αποτελέσματα (clustered results), κριτήριο “nofollow” (Google, 2005). • The Search Wikia Project: δεν θα στηρίζεται σε αλγόριθμους ταξινόμησης αλλά τα αποτελέσματα θα διαμορφώνονται από τους χρήστες.
Κριτική / Μειονεκτήματα(1) • Μόνο ένα μικρό μέρος του Ιστού επισκέπτονται οι spiders. • Δυσκολία στη διάκριση μεταξύ νέας και ήδη επεξεργασμένης πληροφορίας. • Μέσος χρόνος επίσκεψης κάθε κόμβου μέχρι και 6 μήνες > broken links, χάνεται η νέα πληροφορία. • Επικίνδυνες ιστοσελίδες στα αποτελέσματα (έρευνα McAfee). • H ιεράρχηση των αποτελεσμάτων επηρεάζεται και από διαφημιστικές πρακτικές. • Ποιότητα δεδομένων > η πληροφορία δεν ελέγχεται.
Κριτική / Μειονεκτήματα(2) • Υπερβολική πρόσβαση στην πληροφορία (π.χ. πορνογραφικά sites). • Ελλιπής πρόσβαση στην πληροφορία (π.χ. δυναμικές ιστοσελίδες, HTTPS URLs). • Λογοκρισία (π.χ. Κίνα). • Έλλειψη διαφάνειας – ο τρόπος λειτουργίας των αλγορίθμων είναι μυστικός. • Καταπάτηση ατομικών ελευθεριών.
Κοινωνικές διαστάσεις • Μ.Α > πρόσβαση στη γνώση και την πληροφορία. Δεν αποτελούν μόνο τεχνικά φαινόμενα, εμπλέκονται σε κοινωνικές διαδικασίες. • «Βάσεις δεδομένων» που αντικατοπτρίζουν τις προθέσεις (“databases of intentions”) και την κουλτούρα των χρηστών. Επιπτώσεις στους τομείς της διαφήμισης και των επιχειρήσεων. (John Batelle, 2005). • Η καταχώρηση ή μη ενός web site στο index μιας Μ.Α. και η θέση του στα αποτελέσματα > οικονομικές, κοινωνικές, πολιτικές και επιστημονικές επιπτώσεις.
Πηγές(1) • Feldman S.,(2002). This is what I asked for? The searching quarmire. In Mintz A., Web of deception. Information Today, Inc. • http://daphne.palomar.edu/TGSEARCH/ • http://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304A-37F4-11E8-B7F483414B7F0000 • http://www.pandia.com/goalgetter/index.html • http://www.searchenginehistory.com/ • http://pacific.jour.auth.gr/totsidou/Search_Engines.htm • http://www.searchenginemarketing.gr/search-engine-marketing-terms.htm • http://www.go-online.gr/ebusiness/specials/article.html?article_id=231 • http://www.inertia.gr/whatSE.html • http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html
Πηγές(2) • http://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304A-37F4-11E8-B7F483414B7F0000&pageNumber=6&catID=2 • http://www.imerisia.gr/article.asp?catid=4775&subid=2&pubid=274491 • http://en.wikipedia.org/wiki/Search_engine • http://en.wikipedia.org/wiki/Spamdexing • http://jcmc.indiana.edu/vol12/issue3/hargittai.html • http://jcmc.indiana.edu/vol12/issue3/vaughan.html • http://jcmc.indiana.edu/vol12/issue3/vancouvering.html • http://www.netmode.ntua.gr/courses/postgraduate/edi/ergasies2006/SEO.pdf • http://e-rooster.gr/10/2006/350