530 likes | 742 Views
Zoekmachines. ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers. Wat is een zoekmachine?. Definitie: Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW. Geschiedenis.
E N D
Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers
Wat is een zoekmachine? • Definitie: Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW.
Geschiedenis • Explosieve groei WWW • steeds meer informatie digitaal en online beschikbaar/bereikbaar • gemiddeld 19 clicks tussen 2 webpagina's • zoals in een bibliotheek: onvindbaar zonder ordening en index • Oplossing: directories en zoekmachines
Geschiedenis • Directories • hierarchie van handmatig toegevoegde wegpagina’s • voorbeelden: Yahoo! Directory, DMOZ
Geschiedenis • Directories • voordelen • hogere kwaliteit • geordend • nadelen • subjectief • arbeidsintensief • passief
Geschiedenis • Zoekmachines • doorzoeken automatisch het WWW op basis van een zoekopdracht • voorbeelden:
Geschiedenis • Zoekmachines • voordelen • geautomatiseerd • objectief • actief • nadelen • …
browser query search engine server documents Hoe werkt een zoekmachine? Web pages search engine client
browser search engine client query search engine server documents Hoe werkt een zoekmachine? Web pages
search engine client query search engine server browser documents Hoe werkt een zoekmachine? World Wide Web
search engine client query search engine server browser documents Hoe werkt een zoekmachine? webpage webpage webpage webpage webpage webpage webpage webpage webpage webpage webpage
search engine client query search engine server browser documents Hoe werkt een zoekmachine? Web index webpage webpage webpage webpage webpage webpage webpage webpage webpage webpage webpage
search engine client query search engine server browser documents Hoe werkt een zoekmachine? Web index webpage webpage webpage webpage webpage webpage webpage webpage webpage crawler webpage webpage
webpage hub autoriteit webpage Geschiedenis • Verschillende generaties • 1e generatie (Archie) • locatie • 2e generatie (Lycos) • locatie & inhoud • 3e generatie (Google) • locatie, inhoud & autoriteit • 4e generatie • ???
Lies, damned lies & statistics • Getallen • marktaandeel VS
Lies, damned lies & statistics • Getallen • marktaandeel VS
Lies, damned lies & statistics • Getallen • marktaandeel Groot-Brittannië
Lies, damned lies & statistics • Getallen • marktaandeel Nederland & Duitsland
Lies, damned lies & statistics • Getallen • marktaandeel • grootte geindexeerde Web • overlap (70%-90%) • “much of the Web is crap” • > 14,3 miljard geindexeerde pagina’s
Lies, damned lies & statistics • Getallen • marktaandeel • grootte geindexeerde Web
Lies, damned lies & statistics • Getallen • marktaandeel • grootte geindexeerde Web • > 14,3 miljard pagina’s • aantal zoekopdrachten • ± 1 miljard per dag ≈11.500 per seconde
Zoeken • basis • Booleaanse operatoren • pirate AND monkey • pirate OR monkey • pirate NOT monkey • pirate AND monkey NOT robot • filteren stopwoorden • exacte frases • “pirates of the caribbean”
Zoeken • gevorderden • proximity (NEAR, ADJ) • pirates NEAR software • wildcards (*) • “pirates of *” • synoniemen (~) • ~pirate • veldspecifiek zoeken (title, domain, filetype) • pirate filetype:ppt
Problemen voor zoekmachines • groei & dynamiek van het WWW • +11 miljoen pagina’s per dag • dynamisch • updates • link rot
Surface Web Deep Web totale WWW 400 tot 550 keer groter > 14,3 miljard > 5 biljoen Problemen voor zoekmachines • groei & dynamiek van het WWW • niet alles is indexeerbaar • geen verwijzing geen indexering • dynamisch gegenereerde pagina’s
Problemen voor zoekmachines • groei & dynamiek van het WWW • niet alles is indexeerbaar • niet alles moet geindexeerd worden • search engine spamming • keyword stuffing • link farms
Problemen voor zoekmachines • groei & dynamiek van het WWW • niet alles is indexeerbaar • niet alles moet geindexeerd worden • query syntax niet toereikend • beperkt tot keywords ambiguiteit!
Problemen voor zoekmachines ‘jaguar’
Problemen voor zoekmachines • groei & dynamiek van het WWW • niet alles is indexeerbaar • niet alles moet geindexeerd worden • query syntax niet toereikend • beperkt tot keywords ambiguiteit! • gemiddelde 2 zoektermen
4e generatie zoekmachines • andere domeinen • desktop • Google Desktop, Spotlight • enterprise/intranet • Verity, Panoptic, Grokker • blogs • Bloogz, Technorati, Google Blog Search • multimedia • Ditto, Google Images/Video, AllTheWeb
4e generatie zoekmachines • andere domeinen • andere algoritmes/toepassingen • meta search • Dogpile, Vivisimo • clustering • Clusty, Grokker • question answering systemen • Brainboost, AnswerBus, Inferret, Ionaut
4e generatie zoekmachines • andere domeinen • andere algoritmes/toepassingen • meta search • Dogpile, Vivisimo • clustering • Clusty, Grokker • question answering systemen • Brainboost, AnswerBus, Inferret, Ionaut • personalizatie • recommender systems • Amazon, MyStrands, Pandora, MovieLens
4e generatie zoekmachines • andere domeinen • andere algoritmes/toepassingen • meta search • Dogpile, Vivisimo • clustering • Clusty, Grokker • question answering systemen • Brainboost, AnswerBus, Inferret, Ionaut • personalizatie • recommender systems • Amazon, MyStrands, Pandora, MovieLens • social tagging • Flickr, del.icio.us, LastFM
4e generatie zoekmachines • andere domeinen • andere algoritmes/toepassingen • andere rol • van passief naar actief • IntelliGent, Watson
Fun with Google 101 • Google Bomb • miserable failure • raar kapsel • vreemdelingenhaat • more evil than satan
Fun with Google 101 • Google Bomb • Google suggestions
Fun with Google 101 • Google Bomb • Google suggestions • Googlewhack • intergalactically janitorial • icebreaking snaggletooth • obverse tartiness • tailgated winnebagoes • arachnophobic swashbuckler
Fun with Google 101 • Google Bomb • Google suggestions • Googlewhack • Googlisms • Google Trends
The Dark side of the Force search • censuur • Frankrijk • Duitsland • China