1 / 150

To διαδίκτυο ως πηγή πληροφοριών

To διαδίκτυο ως πηγή πληροφοριών. Ανδρέας Βέγλης. Το World Wide Web  η πιο γρήγορα αναπτυσσόμενη υπηρεσία του διαδικτύου. ύπαρξη παγκοσμίως αρκετών εκατοντάδων εκατομμυρίων ιστοσελίδων. τεράστιος όγκος πληροφοριών + αναρχία που επικρατεί στο διαδίκτυο  μηχανισμός αναζήτησης ιστοσελίδων.

judith
Download Presentation

To διαδίκτυο ως πηγή πληροφοριών

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. To διαδίκτυο ως πηγή πληροφοριών Ανδρέας Βέγλης

  2. Το World Wide Web η πιο γρήγορα αναπτυσσόμενη υπηρεσία του διαδικτύου. • ύπαρξη παγκοσμίως αρκετών εκατοντάδων εκατομμυρίων ιστοσελίδων. • τεράστιος όγκος πληροφοριών + αναρχία που επικρατεί στο διαδίκτυο  μηχανισμός αναζήτησης ιστοσελίδων Εξέλιξη του WWW

  3. Προγράμματα που ερευνούν συστηματικά το διαδίκτυο για ιστοσελίδες εξερευνώντας όλες τις συνδέσεις από ένα δικτυακό τόπο εκκίνησης, που περιλαμβάνει πολλές συνδέσεις με άλλες ιστοσελίδες. • Η ιδέα = κάθε ιστοσελίδα πρέπει να συνδέεται με κάποια άλλη. Αράχνες

  4. Πολλές αντιδράσεις • Τεράστια κίνηση στο δίκτυο • Οι περισσότεροι διαχειριστές τα αντιμετώπιζαν εχθρικά • Οι προγραμματιστές δημιουργούσαν όλο και περισσότερες αράχνες. • Έως το Δεκέμβριο του 1993 είχαν εμφανιστεί τρεις μηχανές αναζήτησης που χρησιμοποιούσαν αράχνες: JumpStation, the world Wide Web Worm, Repository Software Engineering (RBSE) spider. Αντιδράσεις

  5. Google (1/2) • Το 1995 • SergeyBrin και LarryPage υποψήφιοι διδάκτορες της Επιστήμης των Υπολογιστών στο πανεπιστήμιο Stanfordαναπτύσουν νέα τεχνολογία αναζήτησης • To 1997 δημιούργησαν τη μηχανή αναζήτησης BackRub που ήταν ο πρόγονος του Google.

  6. Google (2/2) • To 1998 ξεκινούν το Google. • 10.000 αιτήσεις για αναζήτηση κάθε μέρα. • Το 1999 η μηχανή αναζήτησης δεχόταν πλέον 3 εκατομμύρια αιτήσεις για αναζήτηση κάθε μέρα. • Το 2000 οι αιτήσεις έφταναν πλέον τα 60 εκατομμύρια ενώ το ευρετήριο του περιελάμβανε 1,3 δισεκατομμύρια ιστοσελίδες. • Το 2001 οι αιτήσεις ανέρχονταν σε 100 εκατομμύρια ενώ το ευρετήριο της μηχανής περιελάμβανε πλέον ιστοσελίδες σε 40 διαφορετικές γλώσσες, μεταξύ των οποίων και τα ελληνικά. • Ξεκίνησε η δυνατότητα αναζήτησης γραφικών.

  7. Δύο μέθοδοι εύρεσης πληροφοριών. • Πλοήγηση: ο χρήστης ακολουθεί ένα μονοπάτι υπερ-συνδέσεων μεταξύ διαφορετικών ιστοσελίδων. • Αναζήτηση: ειδικό λογισμικό ταιριάζει τις λέξεις που εισάγει ο χρήστης με σχετικά έγγραφα στο διαδίκτυο. Αναζήτηση & πλοήγηση

  8. Κατάλληλη όταν το διαδίκτυο ήταν σχετικά μικρό • Σήμερα χρονοβόρο • Μικρή πιθανότητα εύρεσης των πληροφοριών Πλοήγηση

  9. Οι μηχανές αναζήτησης συλλέγουν μόνες τους πληροφορίες από το διαδίκτυο. • Διαθέτουν τεράστια ευρετήρια με τακτική ανανέωση χωρίς την παρέμβαση ανθρώπου. • Οι θεματικοί κατάλογοι επιτρέπουν την καταχώριση ιστοσελίδων από ανθρώπους. • Διαθέτουν πολύ καλή οργάνωση αλλά αρκετά λιγότερο υλικό από τις μηχανές αναζήτησης. Μηχανές αναζήτησης & Θεματικοί κατάλογοι

  10. Μηχανές αναζήτησης & Θεματικοί κατάλογοι

  11. Οι θεματικοί κατάλογοι προσφέρουν ένα πλαίσιο βασισμένο στο περιεχόμενο για δομημένη πλοήγηση • Οι μηχανές αναζήτησης επιτρέπουν την αναζήτηση για καθορισμένες από το χρήστη λέξεις κλειδιά ή φράσεις. • θεματικός κατάλογος - περιεχόμενα ενός βιβλίου • Μηχανή αναζήτησης - ευρετήριο. Μηχανές αναζήτησης και θεματικοί κατάλογοι

  12. Κατηγορία υποκατηγορία υποκατηγορία υποκατηγορία υποκατηγορία υποκατηγορία Δομή κατηγοριών θεματικού καταλόγου

  13. λέξη κλειδίέγγραφο, θέση γάτα 3,4;9,2;1,2.. 2,4;14,2;7,3.. υπολογιστής 8,4;19,1;6,2.. πλανήτης Ευρετήριο μηχανής αναζήτησης

  14. Είναι προγράμματα που επιτρέπουν την αναζήτηση με λέξεις-κλειδιά (keywords) σε τεράστιες βάσεις δεδομένων αρχείων του διαδικτύου. • Οι βάσεις δεδομένων περιέχουν αντίγραφα εκατομμυρίων ιστοσελίδων του World Wide Web που συλλέγονται αυτόματα από ειδικά προγράμματα, τα οποία μπορεί να έχουν διάφορες ονομασίες (spider, crawler, robot κλπ.), αλλά εκτελούν ουσιαστικά την ίδια εργασία. • Από τον τίτλο τους, το πλήρες κείμενο, το μέγεθος, το URL, κ.λ.π. δημιουργείται ένα ευρετήριο. Ορισμός μηχανής αναζήτησης

  15. Spider (ή Crawler ή Robot κλπ.) • Ευρετήριο (Index) • Μηχανισμό αναζήτησης Μέρη μηχανής αναζήτησης

  16. Λειτουργία μηχανής αναζήτησης

  17. Διαθέτουν τον δικό τους δικτυακό τόπο στο διαδίκτυο. • Ο χρήστης πληκτρολογεί τις λέξεις-κλειδιά • Η μηχανή αναζήτησης επιστρέφει τα αποτελέσματα: Τρόπος λειτουργίας μηχανής αναζήτησης

  18. Συνεχή αύξηση της υπολογιστικής ισχύος • Τακτική αναβάθμιση του εύρους των συνδέσεων της με το διαδίκτυο. • Χώρος αποθήκευσης ιστοσελίδων • Κόστος του μηχανισμού αναζήτησης • Κόστος της αράχνης Κόστος

  19. Περιορισμός του συνολικού αριθμού των ιστοσελίδων στο ευρετήριό τους. • Περιορισμός της συχνότητας των επισκέψεων στις ίδιες σελίδες • Περιορισμός της αράχνης σε ορισμένες περιοχές του διαδικτύου Τρόποι περιορισμού κόστους

  20. Ιστοσελίδες που θα μπορούσαν να περιληφθούν στο ευρετήριο αγνοούνται. • Το WWW περιλαμβάνει μεγάλο όγκο πολλαπλών ιστοσελίδων με το ίδιο περιεχόμενο καθώς και ιστοσελίδες με κακόβουλο περιεχόμενο. • Εξισορρόπηση μεταξύ της απόρριψης προβληματικών ιστοσελίδων και της βεβαιότητας ότι όλες οι ιστοσελίδες με κατάλληλο υλικό θα ανεβρεθούν σε μία αναζήτηση • Καμία μηχανή δε θα μπορέσει ποτέ να καταγράψει πλήρως το διαδίκτυο. Αποτελέσματα των περιορισμών

  21. Μεσολαβεί συνήθως κάποιο χρονικό διάστημα από τη στιγμή που δημοσιευτεί μία ιστοσελίδα στο διαδίκτυο, έως ότου η αράχνη την ανακαλύψει. • Μεσολαβεί κάποιο χρονικό διάστημα από τη στιγμή που η αράχνη ανακαλύψει για πρώτη φορά μία ιστοσελίδα, έως ότου την επισκεφτεί ξανά αναζητώντας τυχόν νέο περιεχόμενο. Χρόνος καταχώρισης ιστοσελίδας

  22. Υπερβολικές προσδοκίες από τις ικανότητες των μηχανών αναζήτησης καθώς και από τις πληροφορίες που περιλαμβάνουν. • Χρήση μόνο λίγων λέξεων κλειδιών σε μία αναζήτηση. • Στατιστικά η πλειοψηφία των χρηστών εκτελεί δύο ή τρεις αναζητήσεις με λέξεις κλειδιά. • Σπάνια χρησιμοποιούνται τα ειδικά χαρακτηριστικά περιορισμού και ελέγχου των αποτελεσμάτων, που προσφέρουν όλες οι μηχανές αναζήτησης. Απαιτήσεις και προσόντα χρήστη

  23. Σύνολο από προκαθορισμένα από πριν αποτελέσματα για τις πιο δημοφιλείς αναζητήσεις. • Ρύθμιση/Ταξινόμηση των αποτελεσμάτων έτσι ώστε οι πιο δημοφιλείς ιστοσελίδες να εμφανίζονται στην κορυφή των αποτελεσμάτων της μηχανής. • Σε περίπτωση που ο χρήστης ασχοληθεί συστηματικά με τον τρόπο λειτουργίας των μηχανών αναζήτησης και μάθει να χρησιμοποιεί όλα τα χαρακτηριστικά τους, τα αποτελέσματα των αναζητήσεων του θα βελτιωθούν θεαματικά. Τεχνικές μηχανών αναζήτησης

  24. Όλοι οι χρήστες περιμένουν αστραπιαία απόκριση από τις μηχανές αναζήτησης. • Για να ικανοποιήσουν αυτή την απαίτηση οι μηχανές αναζήτησης σπάνια επιτελούν ακριβή ανάλυση των αποτελεσμάτων που δίδουν. • Αυτό έχει σαν αποτέλεσμα περικοπή και παράλειψη πολλές φορές, σημαντικών αποτελεσμάτων. • Οι αυξήσεις όμως στην υπολογιστική ισχύ των μηχανών αναζήτησης καθώς και της ταχύτητας σύνδεσης τους με το διαδίκτυο, επιτρέπουν τις μηχανές αναζήτησης να χρησιμοποιούν πιο αποδοτικές τεχνικές χωρίς να θυσιάζουν την ταχύτητα παράδοσης των αποτελεσμάτων τους. Γρήγορα – σωστά αποτελέσματα.

  25. Με κριτήριο τον τρόπο παρουσίασης των αποτελεσμάτων, οι υπηρεσίες αναζήτησης διακρίνονται σε: • Μηχανές αναζήτησης πρώτης γενεάς • Μηχανές αναζήτησης δεύτερης γενεάς Κατηγοριοποίηση υπηρεσιών αναζήτησης

  26. Να ομαδοποιήσουν τα αποτελέσματα σύμφωνα με το περιεχόμενο των δικτυακών τόπων. • Να ιεραρχήσουν τα αποτελέσματα σύμφωνα με τη δημοτικότητα των τόπων. • Να ομαδοποιήσουν τις ιστοσελίδες κάτω από την αρχική ιστοσελίδα ενός δικτυακού τόπου. • Να ιεραρχήσουν τα αποτελέσματα σύμφωνα με το είδος ή τον τύπο των τεκμηρίων. • Να δεχθούν ερωτήσεις σε φυσική γλώσσα και να δώσουν σαν αποτέλεσμα έτοιμες εκ των προτέρων απαντήσεις. Τρόποι ιεράρχησης αποτελεσμάτων στις μηχανές αναζήτησης δεύτερης γενεάς

  27. 1ης γενεάς • Alta Vista http://www.altavista.com • Excite http://www.excite.com • Lycos http://www.lycos.com • 2ης γενεάς • Google http://www.google.com • Ask http://www.ask.com Διευθύνσεις μηχανών αναζήτησης

  28. Ιεραρχούν τα αποτελέσματα υπολογίζοντας την συνάφεια, το ποσοστό δηλαδή που δείχνει πόσο σχετικό είναι το περιεχόμενο μιας ιστοσελίδας με τις λέξεις-κλειδιά της αναζήτησης, ακολουθώντας μία σειρά από κανόνες, γνωστούς ως αλγόριθμους. Κριτήρια ιεράρχησης αποτελεσμάτων σε μηχανή αναζήτησης (1/3)

  29. Να περιέχουν τον όρο της αναζήτησης στον τίτλο, στην πρώτη επικεφαλίδα ή στις πρώτες παραγράφους κειμένου. • Συχνότητα με την οποία εμφανίζονται οι όροι της αναζήτησης σε μία ιστοσελίδα σε σχέση με άλλες λέξεις. • Τα meta tags (εντολές της γλώσσας προγραμματισμού HTML) δεν εξασφαλίζουν μια υψηλή θέση στην ιεράρχηση των αποτελεσμάτων. Κριτήρια ιεράρχησης αποτελεσμάτων σε μηχανή αναζήτησης (2/3)

  30. Αναλύοντας πως οι ιστοσελίδες συνδέονται μεταξύ τους, η μηχανή αναζήτησης μπορεί να προσδιορίσει το θέμα μιας σελίδας και πόσο σημαντική θεωρείται. • Δημοτικότητα ιστοσελίδας. Κριτήρια ιεράρχησης αποτελεσμάτων σε μηχανή αναζήτησης (3/3)

  31. Τύποι αρχείων • Σημαντική βοήθεια στη μείωση του αριθμού των αποτελεσμάτων που δίνει μία μηχανή αναζήτησης είναι ο περιορισμός των τύπων των αρχείων καθώς και της γλώσσας.

  32. Περιορισμός γλώσσας • Ο περιορισμός της γλώσσας είναι επίσης μία πολύ σημαντική παράμετρος, ειδικά όταν οι λέξεις κλειδιά που εισάγουμε είναι αγγλικές. • Ο περιορισμός για αναζητήσεις μόνο σε αρχεία στα αγγλικά οδηγεί στο σημαντικό περιορισμό των αποτελεσμάτων, καθώς απορρίπτονται αρχεία σε διαφορετική γλώσσα που περιλαμβάνουν τις λέξεις κλειδιά.

  33. Επιλογή των σωστών όρων σε μία αναζήτηση. • Η λογική των τελεστών (Boolean logic) Χρήση τελεστών

  34. Η λογική τελεστών χρησιμοποιείται για την κατασκευή ερωτημάτων αναζήτησης με τη βοήθεια των λογικών τελεστών, με αυστηρά προκαθορισμένη σύνταξη. Τελεστές

  35. Οδηγεί στην ανάκτηση μόνο ιστοσελίδων που περιέχουν όλους τους όρους της αναζήτησης. • Ακριβείς αναζητήσεις • Μειώνει σημαντικά τον αριθμό των αποτελεσμάτων που πρέπει να ερευνήσει ο χρήστης. • Μερικές μηχανές δεν δέχονται τον τελεστή and, αλλά επιτρέπουν την χρήση του λογικού συμβόλου + που ισοδυναμεί με το and. • Συγκεκριμένες μηχανές τον δέχονται μόνο όταν είναι γραμμένος με κεφαλαία γράμματα. Τελεστές BooleanΤελεστής Boolean and

  36. Παράδειγμα χρήσης του τελεστή AND

  37. Περιορισμός αποτελεσμάτων με τον τελεστή AND

  38. Οδηγεί στην ανάκτηση ιστοσελίδων που περιέχουν οποιονδήποτε από τους όρους της αναζήτησης. • μεγάλο αριθμό αποτελεσμάτων. • συνίσταται μόνο στην αναζήτηση συνώνυμων όρων • Πολλές μηχανές πραγματοποιούν μία τέτοια αναζήτηση όταν ο χρήστης αφήνει κενά ανάμεσα στις λέξεις, ενώ άλλες απαιτούν την χρήση του τελεστή or. • Συγκεκριμένες μηχανές πάλι τον δέχονται μόνο όταν είναι γραμμένος με κεφαλαία γράμματα. Τελεστής Boolean or

  39. Παράδειγμα χρήσης του τελεστή OR

  40. Αύξηση αποτελεσμάτων με τον τελεστή OR

  41. Οδηγεί στην ανάκτηση ιστοσελίδων που περιέχουν έναν συγκεκριμένο όρο, αλλά δεν περιέχουν κάποιες άλλες λέξεις που επιλέγει ο χρήστης. • Βοηθάει στον περιορισμό των αποτελεσμάτων, αποκλείοντας κάποιους όρους που διευρύνουν πολύ το πεδίο της αναζήτησης • Μπορεί να οδηγήσει στον αποκλεισμό ορισμένων χρήσιμων για τον χρήστη ιστοσελίδων. Τελεστής Boolean not

  42. Παράδειγμα χρήσης του τελεστή NOT

  43. Μείωση αποτελεσμάτων με τον τελεστή ΝΟΤ

  44. πολλές υπερσυνδέσεις οδηγούν στις ίδιες ιστοσελίδες που έχει ήδη επισκεφτεί ο spider • υπάρχουν ιστοσελίδες στις οποίες δεν έχουν πρόσβαση οι spiders, καθώς δεν είναι συνδεδεμένες με άλλες ιστοσελίδες • υπάρχουν δικτυακοί τόποι και βάσεις δεδομένων στο διαδίκτυο που δεν επιτρέπουν την πρόσβαση σε μηχανές αναζήτησης. Επισημάνσεις για την αποτελεσματική χρήση των μηχανών αναζήτησης (1/8)

  45. Η μεγαλύτερη μηχανή αναζήτησης καλύπτει μόλις το ένα τρίτο του World Wide Web. • Το σύνολο των μηχανών αναζήτησης καλύπτει ένα μεγαλύτερο ποσοστό • Προτείνεται στον χρήστη η πραγματοποίηση της ίδιας αναζήτησης σε περισσότερες μηχανές. Επισημάνσεις για την αποτελεσματική χρήση των μηχανών αναζήτησης (2/8)

  46. Οδηγίες χρήσης ή συμβουλές που δίνουν οι ίδιες οι μηχανές αναζήτησης. • Οι οδηγίες μπορούν να απαλλάξουν τον χρήστη από την χρονοβόρα διαδικασία να ανακαλύψει πως ακριβώς λειτουργεί μία μηχανή αναζήτησης προτού μπορέσει να την χρησιμοποιήσει αποτελεσματικά. Επισημάνσεις για την αποτελεσματική χρήση των μηχανών αναζήτησης (3/8)

  47. Οι περισσότερες μηχανές αναζήτησης προσφέρουν και ένα περιβάλλον για πιο σύνθετες έρευνες. • Τεράστιος αριθμός αποτελεσμάτων. • Στις μηχανές που ευρετηριάζουν το πλήρες κείμενο μιας ιστοσελίδας μπορεί να ανακτηθούν και σελίδες που περιέχουν τον όρο της αναζήτησης μόνο μια φορά σε ολόκληρο το κείμενο, χωρίς αυτό να αποτελεί το βασικό θέμα τους. • Επίσης, μπορεί στα αποτελέσματα να περιλαμβάνονται πολλές ιστοσελίδες από τον ίδιο δικτυακό τόπο, καθώς περιέχουν όλες τον όρο της αναζήτησης. Επισημάνσεις για την αποτελεσματική χρήση των μηχανών αναζήτησης (4/8)

  48. Ομαδοποίηση αποτελεσμάτων, όπου όλα τα αποτελέσματα από έναν τόπο συνενώνονται. • Αναζήτηση μέσα στα αποτελέσματα της πρώτης έρευνας, δίνοντας έτσι τη δυνατότητα στον χρήστη να τα περιορίσει. Επισημάνσεις για την αποτελεσματική χρήση των μηχανών αναζήτησης (5/8)

  49. Η επιλογή των σωστών λέξεων-κλειδιών που χρησιμοποιούνται για την αναζήτηση. • Ο χρήστης να αναλογιστεί τι ακριβώς ψάχνει και να επιλέξει την πιο κατάλληλη λέξη που να το εκφράζει. • Όσο πιο ασυνήθιστος ή εξειδικευμένος είναι ο όρος τόσο πιο συγκεκριμένα θα είναι τα αποτελέσματα. • Ακόμη πιο αποτελεσματική είναι η χρήση (όπου αυτό είναι δυνατό) μιας φράσης, που συνήθως πρέπει να εσωκλείεται σε εισαγωγικά (“…”), καθώς και ο συνδυασμός όρων χρησιμοποιώντας την λογική των τελεστών Επισημάνσεις για την αποτελεσματική χρήση των μηχανών αναζήτησης (6/8)

  50. Πρώτα αναζήτηση του όρου στον τίτλο της ιστοσελίδας. • Συνίσταται η χρήση μικρών γραμμάτων, καθώς ορισμένες μηχανές διαχωρίζουν μεταξύ μικρών και κεφαλαίων. • Εξαίρεση στον κανόνα αποτελεί η περίπτωση που γίνεται έρευνα για ονόματα, γεωγραφικές τοποθεσίες και τίτλους βιβλίων ή ταινιών, οπότε η χρήση κεφαλαίων αποφέρει καλύτερα αποτελέσματα. • Ορθογραφικό ή τυπογραφικό λάθος Επισημάνσεις για την αποτελεσματική χρήση των μηχανών αναζήτησης (7/8)

More Related