1 / 29

Keuzes in het zoekproces

Keuzes in het zoekproces. Jeroen Bosman VOGIN, 7 juni 2006 Wageningen. Kenmerken zoekexpert. Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces. Zoeksystematiek. Vraaganalyse

cain-wilson
Download Presentation

Keuzes in het zoekproces

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Keuzes in het zoekproces Jeroen Bosman VOGIN, 7 juni 2006 Wageningen

  2. Kenmerken zoekexpert • Kennis onderwerp • Bronnenkennis • Kennis zoektools • Talenkennis, taalcreativiteit • Logica • Zorgvuldig gebruik zoektools • Snelheid • Reflectie op eigen zoekproces

  3. Zoeksystematiek • Vraaganalyse • Verkenning • Opstellen zoekprofiel: waaraan moet de informatie voldoen • Keuze ingang(en): zoekmachines, gidsen, bookmarksites • Daadwerkelijk zoeken • Nabewerking per relevante bron • Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen) • Expliciete reflectie op zoekproces en zoekresultaat • Bij doorlopende interesse evt. web en page alerts/feeds instellen

  4. Vraaganalyse • Opdrachtgever: wat wil men met de informatie? • Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.) • Randvoorwaarden: tijd, geld, vertrouwelijkheid • Rapportagevorm (inhoudelijk, technisch)

  5. Verkenning • Welke vraag/onderwerp • Wat ligt er al, nuttig als uitgangspunt? • Inhoudelijk verkennen (via bv Wikipedia of ander naslagwerk of via korte zoekactie) • Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs

  6. Zoekprofiel • Onderscheiden elementen (variabelen) • Welke? • Allebei even belangrijk? • Vooraf genereren zoektermen • Uit reeds gevonden bronnen • Uit naslagwerken/zoekacties van verkenningsfase • Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus) • Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen • Relevante typen informatie en publicaties • Relevante publicatieperiode

  7. Keuze zoekingang • Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren • Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties • Bepaald door extra wensen: • Zoekmethode: catalogus-, bibliografische, sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks) • Zoeken in full-text, links naar full-text • Ook letten op volgorde ingangen (dekking, bekendheid, selectiviteit) • Zie ook ‘startpagina’ bij deze cursus

  8. Daadwerkelijk zoeken • Bij zoekmachine input zoektermen en instellingen, bij gids klikken in hiërarchie of ook zoeken met zoektermen • Eén of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen • Selectie uit resultaat: waarnaar kijken? • Evaluatie gevonden bron: waarop letten?

  9. Nabewerking per (relevante) bron • opslaan (mail, document, endnote/refworks e.d) • versturen (handmatig, vanuit systeem) • bookmark (browser, del.icio.us) • alert/spion • RSS-feed Komt op vierde dag apart aan de orde

  10. Reflectie • Hoeveel gevonden in hoeveel tijd? • Voldoet oogst aan zoekprofiel? • Welke aspecten van zoekprofiel waren meest selectief? • Waren alle vooraf bedachte ingangen even nuttig? • Wat was de overlap tussen de ingangen? • Goede volgorde ingangen gehanteerd? • Iets geleerd over eigen sterke/zwakke punten?

  11. WWW: bowtie model

  12. domeinen • soorten top-level-domains (TLD) iso-3166 • generiek: • com / org / net (vrij) • int / edu / gov / mil / arpa (beperkt) • landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) • jump: tv / nu / to / tk • nieuw: biz/info/name/coop/pro/aero • generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie bv. http://www.derbal.com/domains.html)

  13. opbouw URL • protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie • http : // www . library . uu . nl / geosource / index . html

  14. URL’s van databasepagina’s • http://hardy.library.uu.nl:4505/ALEPH0/SESSION66067604868/scan?VALUE=geografische+huis&SCAN=TIT • http://www.ussc.alltheweb.com/cgi-bin/advsearch?offset=40&terms=3&type=any&query=utrecht&exec=FAST+Search&lang=any&enco=iso-88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on

  15. Inhoud WWW: algemeen • Omvang: 11,5 miljard + databases + FTP • Weinig wetenschappelijke teksten onafgeschermd • Kwaliteit • Betrouwbaarheid • Actualiteit • Kosten/afscherming

  16. Inhoud WWW: aanbieders • Bedrijven • Overheid • Internationale organisaties • Verenigingen, actiegroepen • Universiteiten • Bibliotheken • Uitgevers • Particulieren

  17. zoektools: wanneer wat? • indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines • indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen

  18. Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages

  19. Onderwerpsgidsen: breed • internationaal/VS: • Open Directory(in Gigablast extra zoekfuncties hiervoor) • Yahoo • Looksmart • Nederlands: • startpagina+dochters en concurrenten • startnederland (meta-gids)

  20. Onderwerpsgidsen: gespecialiseerd • Miljoenen • Breed wetenschappelijk: Infomine, Internet Scout • Zoeken: • via Yahoo (per onderwerp onder ‘webdirectories’) • via Open Directory of Startnederland • via RDN (wetenschappelijk) • via Pinakes (wetenschappelijk) • Tijd besteden aan vinden van goede onderwerpsgidsen: • via collegae • via discussielijsten

  21. Zoekmachines: dekking • > 15% van de webpagina’s in geen enkele van de grootste zoekmachines • Van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (http://www.cs.uiowa.edu/~asignori/web-size/) • dekking zeer ongelijkmatig • verschil in actualiteit

  22. Zoekmachines: ontwikkeling • Webcrawler, Lycos, Alta Vista (10) • concurrentie Hotbot, Excite, Yahoo (50) • 1997 Northern Light, MSN, sterke groei web > 200 • 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) • 2002 komst Teoma, Wisenut, Gigablast (1000) • 2003 renaissance AV, glorietijd Google (3000) • 2004 consolidatie/concurrentie (4000): • Google+Blogger, verbreding: boeken, kritiek, beursgang • Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW • Microsoft: introductie MSNsearch beta: zelf indexeren • 2005 verbreding/innovatie/content (5000-10000) • Samenwerking content providers-zoekmachines? • Opkomst vijfde grote speler, Amazon met A9? • Doorgroei Gigablast (2000) • 2006 puur zoeken raakt op achtergrond, uploaden, gemengde content

  23. Zoekmachines: wat vind je niet? • recente webpagina’s/wijzigingen • bij sommige: PDF en andere niet html bestanden • dynamisch gegenereerde pagina’s • informatie in databases • pagina’s met no robots file • pagina’s met toegangsrestricties • verdwenen pagina’s (maar: cache en Wayback Machine archive.org)

  24. Zoekmachines: beperkingen Google • genest Booleaans zoeken > Yahoo/MSN/Gigablast • backlinksindex vrij klein > Yahoo • zeer grote pagina’s niet volledig geïndexeerd > Yahoo • truncatie en patroonzoeken > Exalead

  25. kwaliteit van de invoer in zoekmachines, termen • belang van juiste zoektermen • spellingsvarianten en truncatie (alleen nog Exalead, hoewel…) • denken in termen van het te vinden document, gebruik zinsnedes • gebruik van algemene thesauri (Het juiste woord en Roget's) en evt. gespecialiseerde thesauri bij het zoeken naar alternatieve zoektermen, Word-synoniemen • gewicht aanbrengen met zoektermherhaling in Google • gebruik van speciale termen (evt slang) om te beperken tot een specifieke context waarin term moet voorkomen • gebruik van gesuggereerde termen (o.a. Google Suggest / Gigablast) • inschatten effect gebruikte termen op basis van resultaat • gevaar effect combineren gespecialiseerde en algemene termen • voorbeeldzoeken versus generiek zoeken voor opsommingen

  26. Relatieve omvang, april 2006

  27. lunchpauze Vervolg 13:30

More Related