280 likes | 397 Views
Keuzes in het zoekproces en structuur van het web. Jeroen Bosman VOGIN, 1 november 2006 Wageningen. Kenmerken zoekexpert. Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces.
E N D
Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 1 november 2006 Wageningen
Kenmerken zoekexpert • Kennis onderwerp • Bronnenkennis • Kennis zoektools • Talenkennis, taalcreativiteit • Logica • Zorgvuldig gebruik zoektools • Snelheid • Reflectie op eigen zoekproces
Zoeksystematiek • Vraaganalyse • Verkenning • Opstellen zoekprofiel: waaraan moet de informatie voldoen • Keuze ingang(en): zoekmachines, directories, bookmarksites • Daadwerkelijk zoeken en selecteren • Beoordeling bron • Nabewerking per relevante bron • Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen) • Expliciete reflectie op zoekproces en zoekresultaat • Bij doorlopende interesse evt. web en page alerts/feeds instellen
Vraaganalyse • Opdrachtgever: wat wil men met de informatie? • Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.) • Randvoorwaarden: tijd, geld, vertrouwelijkheid • Rapportagevorm (inhoudelijk, technisch)
Verkenning • Welke vraag/onderwerp • Wat ligt er al, nuttig als uitgangspunt? • Inhoudelijk verkennen (via bv Wikipedia of ander naslagwerk of via korte zoekactie) • Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs
Zoekprofiel • Onderscheiden elementen (variabelen) • Welke? • Allebei even belangrijk? • Vooraf genereren zoektermen • Uit reeds gevonden bronnen • Uit naslagwerken/zoekacties van verkenningsfase • Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus) • Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen • Relevante typen informatie en publicaties • Relevante publicatieperiode
Keuze zoekingang • Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren • Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties • Bepaald door extra wensen: • Zoekmethode: catalogus-, bibliografische, sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks) • Zoeken in full-text, links naar full-text • Ook letten op volgorde ingangen (dekking, bekendheid, selectiviteit) • Zie voor links naar ingangen de ‘startpagina’ bij deze cursus
Daadwerkelijk zoeken • Bij zoekmachine input zoektermen en instellingen, bij gids klikken in hiërarchie of ook zoeken met zoektermen • Eén of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen • Selectie uit resultaat: waarnaar kijken? • Evaluatie gevonden bron: waarop letten?
Beoordeling bron • Inhoudelijk (vooral bij reguliere publicaties) • Status bron (peer reviewed, uitgever, gezaghebbende instantie) • Plaats in citatienetwerk (door wie, hoe vaak) • Bronvermelding (voldoende, geen kernpublicaties gemist) • Formeel (vooral bij websites): • Aanduiding maker/auteur (“about us”) • Aanduiding postadres, telefoonnummer • Aanduiding doel/doelgroep • Goede opmaak • Geen reclame en pop-ups • Heldere navigatie • Interne zoekfunctie • Voldoende snelheid server • Backlinks door gezaghebbende organisaties • Up to date? • Zinnige datering inhoud • Geen grof taalgebruik • Geen kinderlijk taalgebruik • Geen storende taalfouten
Nabewerking per (relevante) bron • opslaan (mail, document, endnote/refworks e.d) • versturen (handmatig, vanuit systeem) • bookmark (browser, del.icio.us) • alert/spion • RSS-feed Komt op vierde dag apart aan de orde
Reflectie • Hoeveel gevonden in hoeveel tijd? • Voldoet oogst aan zoekprofiel? • Welke aspecten van zoekprofiel waren meest selectief? • Waren alle vooraf bedachte ingangen even nuttig? • Wat was de overlap tussen de ingangen? • Goede volgorde ingangen gehanteerd? • Iets geleerd over eigen sterke/zwakke punten?
domeinen • soorten top-level-domains (TLD) iso-3166 • generiek: • com / org / net (vrij) • int / edu / gov / mil / arpa (beperkt) • landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) • jump: tv / nu / to / tk • nieuw: biz/info/name/coop/pro/aero • generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie bv. http://www.derbal.com/domains.html)
opbouw URL • protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie • http : // www . library . uu . nl / geosource / index . html
URL’s van databasepagina’s • http://hardy.library.uu.nl:4505/ALEPH0/SESSION66067604868/scan?VALUE=geografische+huis&SCAN=TIT • http://www.ussc.alltheweb.com/cgi-bin/advsearch?offset=40&terms=3&type=any&query=utrecht&exec=FAST+Search&lang=any&enco=iso-88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on
Inhoud WWW: aanbieders • Bedrijven • Overheid • Internationale organisaties • Verenigingen, actiegroepen • Universiteiten • Bibliotheken • Uitgevers • Particulieren
zoektools: wanneer wat? • indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines • indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen
Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages
Onderwerpsgidsen: breed • internationaal/VS: • Open Directory(in Gigablast extra zoekfuncties hiervoor) • Yahoo • Nederlands: • startpagina+dochters en concurrenten • startnederland (meta-gids)
Onderwerpsgidsen: gespecialiseerd • Miljoenen • Breed wetenschappelijk: Infomine, BUBL • Zoeken: • via Yahoo (per onderwerp onder ‘webdirectories’) • via Open Directory of Startnederland • via RDN (wetenschappelijk) • via Pinakes (wetenschappelijk) • Tijd besteden aan vinden van goede onderwerpsgidsen: • via collegae • via discussielijsten
Zoekmachines: dekking • > 15% van de webpagina’s in geen enkele van de grootste zoekmachines • Van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (http://www.cs.uiowa.edu/~asignori/web-size/) • dekking zeer ongelijkmatig • verschil in actualiteit
Zoekmachines: ontwikkeling • Webcrawler, Lycos, Alta Vista (10) • concurrentie Hotbot, Excite, Yahoo (50) • 1997 Northern Light, MSN, sterke groei web > 200 • 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) • 2002 komst Teoma, Wisenut, Gigablast (1000) • 2003 renaissance AV, glorietijd Google (3000) • 2004 consolidatie/concurrentie (4000): • Google+Blogger, verbreding: boeken, kritiek, beursgang • Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW • Microsoft: introductie MSNsearch beta: zelf indexeren • 2005 verbreding/innovatie/content (5000-10000) • Samenwerking content providers-zoekmachines? • Opkomst vijfde grote speler, Amazon met A9? • Doorgroei Gigablast (2000) • 2006 puur zoeken raakt op achtergrond, uploaden, gemengde content, specifieke diensten (10000-20000)
Zoekmachines: wat vind je niet? • recente webpagina’s/wijzigingen • dynamisch gegenereerde pagina’s • informatie in databases • pagina’s met no robots file • pagina’s met toegangsrestricties • verdwenen pagina’s (maar: cache en Wayback Machine archive.org)
Zoekmachines: beperkingen Google • genest Booleaans zoeken > Yahoo/Live/Exalead/Gigablast • backlinksindex vrij klein > Yahoo • zeer grote pagina’s niet volledig geïndexeerd > Yahoo • truncatie en patroonzoeken > Exalead
kwaliteit van de invoer in zoekmachines, termen • belang van juiste zoektermen • spellingsvarianten en truncatie (alleen nog Exalead, hoewel…) • denken in termen van het te vinden document, gebruik zinsnedes • gebruik van algemene thesauri (Het juiste woord en Roget's) en evt. gespecialiseerde thesauri bij het zoeken naar alternatieve zoektermen, Word-synoniemen • gewicht aanbrengen met zoektermherhaling in Google • gebruik van speciale termen (evt slang) om te beperken tot een specifieke context waarin term moet voorkomen • gebruik van gesuggereerde termen (o.a. Google Suggest / Gigablast) • inschatten effect gebruikte termen op basis van resultaat • gevaar effect combineren gespecialiseerde en algemene termen • voorbeeldzoeken versus generiek zoeken voor opsommingen
lunchpauze Vervolg 13:30