1 / 44

Internetzoeken inleidingen en opdrachten

Internetzoeken inleidingen en opdrachten. Jeroen Bosman VOGIN, voor HVU Utrecht. Kenmerken zoekexpert. Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces. Programma.

tolla
Download Presentation

Internetzoeken inleidingen en opdrachten

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Internetzoekeninleidingen en opdrachten Jeroen Bosman VOGIN, voor HVU Utrecht

  2. Kenmerken zoekexpert • Kennis onderwerp • Bronnenkennis • Kennis zoektools • Talenkennis, taalcreativiteit • Logica • Zorgvuldig gebruik zoektools • Snelheid • Reflectie op eigen zoekproces

  3. Programma 9:30 / welkom, introductie 9:40 / zoeken op het web en bijbehorende tools (1) 10:30 / gevorderde zoekmachine-tactieken (2) 12:00 / lunchpauze 13:00 / mini-workshop: bronnenkennis (4) 13:45 / interactieve bronnen: nieuwsgroepen/discussielijsten (5) 14:10 / current awareness & attenderingen (6) 15:00 / databases op internet: het diepe web (7) 14:40 / bronnen van zoekkennis (8) 15:30 / systematisch zoeken en case studies: (9)

  4. 1 Inhoud WWW: algemeen • Omvang: 11,5 miljard + databases + FTP • Weinig wetenschappelijke teksten onafgeschermd • Kwaliteit • Betrouwbaarheid • Actualiteit • Kosten/afscherming

  5. 1 Zoeken: benaderingen • Aanbieders • Bekende pagina’s • URL verzinnen • Onderwerpsgids • Zoekmachines • Online vragen stellen

  6. 1 Inhoud WWW: aanbieders • Bedrijven • Overheid • Internationale organisaties • Verenigingen, actiegroepen • Universiteiten • Bibliotheken • Uitgevers • Particulieren

  7. 1 zoektools: wanneer wat? • indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines • indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen

  8. 1 Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages

  9. 1 Onderwerpsgidsen: breed • internationaal/VS: • Open Directory(in Gigablast extra zoekfuncties hiervoor) • Yahoo • Looksmart • Nederlands: • startpagina+dochters en concurrenten • startnederland (meta-gids)

  10. 1 Onderwerpsgidsen: gespecialiseerd • Miljoenen • Breed wetenschappelijk: Infomine, Internet Scout • Zoeken: • via Yahoo (per onderwerp onder ‘webdirectories’) • via Open Directory of Startnederland • via RDN (wetenschappelijk) • via Pinakes (wetenschappelijk) • Tijd besteden aan vinden van goede onderwerpsgidsen: • via collegae • via discussielijsten

  11. 1 Zoekmachines: dekking • > 15% van de webpagina’s in geen enkele van de grootste zoekmachines • Van resterende wel geïindexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (http://www.cs.uiowa.edu/~asignori/web-size/) • dekking zeer ongelijkmatig • verschil in actualiteit (Google/MSN meest vers volgens studie uit 2003) • langzame groei dekking bij subtop: Teoma, Gigablast, Ask(Jeeves) • verschil in dekking: Teoma en Wisenut beperkt in Nederland

  12. 1 Zoekmachines: ontwikkeling • Webcrawler, Lycos, Alta Vista (10) • concurrentie Hotbot, Excite, Yahoo (50) • 1997 Northern Light, MSN, sterke groei web > 200 • 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) • 2002 komst Teoma, Wisenut, Gigablast (1000) • 2003 renaissance AV, glorietijd Google (3000) • 2004 consolidatie/concurrentie (4000): • Google+Blogger, verbreding: boeken, kritiek, beursgang • Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW • Microsoft: introductie MSNsearch beta: zelf indexeren • 2005 verbreding/innovatie/content (5000-10000) • Samenwerking content providers-zoekmachines? • Opkomst vijfde grote speler, Amazon met A9? • Doorgroei Gigablast (2000)

  13. Relatieve omvang, maart 2005

  14. 1 Zoekmachines: wat vind je niet? • recente webpagina’s/wijzigingen • bij sommige: PDF en andere niet html bestanden • tekst onderaan zeer lange documentendynamisch gegenereerde pagina’s • informatie in databases • pagina’s met no robots file • pagina’s met toegangsrestricties • verdwenen pagina’s (maar: Google/Gigablast cache en Wayback Machine archive.org)

  15. 1 Zoekmachines: beperkingen Google • genest Booleaans zoeken > Yahoo/MSN/Gigablast • backlinksindex vrij klein > Yahoo • zoeken beperken tot meer dan 1 specifieke site > Gigablast • zeer grote pagina’s niet volledig geïndexeerd > Yahoo • truncatie > Exalead

  16. 1-o opdrachten zoektools Maak nu de opdrachten bij onderdeel 1

  17. 2 vaak gebruikte relevantie criteria • hoe meer van de gevraagde termen, hoe beter • als termen in titel of begin document staan, des te beter • hoe vaker die termen in document herhaald worden, hoe beter • hoe dichter termen bij elkaar en in zelfde volgorde staan, hoe beter • zeldzame term krijgt hoger gewicht dan heel algemene term • termen in opsommingslijst hoger gewicht en: "populaire" pagina's zijn relevanter • aantal backlinks • aantal links op herkomstpagina van backlinks (zorgt voor ‘traagheid’)

  18. 2 domeinen • soorten top-level-domains (TLD) • generiek: • com / org / net (vrij) • int / edu / gov / mil / arpa (beperkt) • landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) • jump: tv / nu / to / tk • nieuw: biz/info/name/coop/pro/aero • generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie http://www.derbal.com/domains.html)

  19. 2 opbouw URL • protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie • http : // www . library . uu . nl / geosource / index . html

  20. 2 URL’s van databasepagina’s • http://hardy.library.uu.nl:4505/ALEPH0/SESSION66067604868/scan?VALUE=geografische+huis&SCAN=TIT • http://www.ussc.alltheweb.com/cgi-bin/advsearch?offset=40&terms=3&type=any&query=utrecht&exec=FAST+Search&lang=any&enco=iso-88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on

  21. 2 recall-killers en precisie-killers bij zoekmachines • recall-killers: • verkeerde bron: -> probeer andere • verkeer spelling: -> woordenboeken • woordvarianten gemist: -> trunceren • te smalle zoektermen • precisie-killers • niet genoeg termen (bij best-match) • niet genoeg aspecten (bij Booleaans) • geen inhoudelijke relatie: -> phrase/near • homoniemen • lange webpagina’s bevatten alle termen: -> in titelveld zoeken • effect metatags

  22. 2 termen verzinnen • voorbeeldzoeken versus generiek zoeken voor opsommingen (zie ook ‘Google sets’) • gebruik minimaal 2, liever 3-5 termen • gebruik zo mogelijk verwachte zinsneden, denk dan in termen van te vinden document • gebruik eventueel termsuggesties van AV, Gigablast, Teoma of clusters van metazoekmachine Vivisimo • evt. bekijken index van Google Suggest

  23. 2-o opdrachten gevorderde zoekmachinetactieken Maak nu de opdrachten bij onderdeel 2

  24. Zoeken: 10 gouden regels • Bedenk wie gezochte informatie zou aanbieden en gok URL daarvan • Gebruik ‘advanced search’ van intern. zoekmachine en lees ‘help’ • Gebruik Google voor vinden van homepages van organisaties, bedrijven etc. • Gebruik voor uitputtende zoektochten Google / Yahoo, evt. Teoma • Gebruik metazoekmachines (Dogpile, Ixquick, Vivisimo) alleen voor zeer specifieke termen • Gebruik i.h.a. algemene onderwerpsgidsen (Yahoo, Open Directory, Looksmart, Startnederland) als u niet in staat bent specifieke termen te verzinnen • Gebruik i.h.a. gespecialiseerde onderwerpsgidsen voor onderwerpen waar u regelmatig naar zoekt en alleen voor homepages en pagina's die niet te diep in een site zitten • Gebruik 2 of meer termen, zo specifiek mogelijk, zo mogelijk een zinsnede ('phrase’) • Gebruik CompletePlanet maar ook onderwerpsgidsen (‘directories’ bij Yahoo-categorieën) om databases te vinden • Gebruik bij te veel resultaat gevorderde opties als beperken met domein, datum, taal, omvang of zoeken op titelwoorden

  25. Lunchpauze (vervolg 13:00)

  26. Aladin All Music Guide Alltheweb Alta Vista Amazon Bartleby BBC Britannica CBS-Statline Columbia Encyclopedia EVD Geassocieerde Persdiensten regionale kranten Geheugen van Nederland Gigablast webzoekmachine+gids Google webzoekmachine Google Groups Google Scholar IMDB Infomine Infoplease Internet Public Library KB Kennisnet Krantenbank Looksmart MSN search OCLC Worldcat Omroep.nl Open Directory Overheid.nl Perinorm Picarta Publist Pubmed Startnederland Swets Teletekst NOS Van Dale GWHN VNG Wettenbank Wikipedia Yahoo gids 4 proefondervindelijk en met overleg in subgroepjes uit 40 brede bronnen de tien beste kiezen

  27. 4-o Maak nu (2 aan 2) de opdracht bij onderdeel 4

  28. 4 klassiek: bronnenkennis online edities: Britannica / Columbia e-only: Encarta / Nupedia / Wikipedia onderwerpsgidsen: Yahoo / Looksmart / Open Directory / Infomine / RDN / Geosource / WebEC meta: Pinakes/ Yahoo webdirectories bibliografische databases: Google Scholar / FindarticlesPubmed / Eric / MLB / ADSABS e-almakken: CIA World Factbook / Quid integrators: Infoplease / Bartleby / Xrefer statistische diensten: CBS / UN / OESO / Eurostat landen/handelsinformatie: EVD bibliotheek(catalogi): Picarta / Library of Congress / meta: KB-gids fulltextboeken: Gutenberg / DBNL / Wordtheque boekwinkels: Amazon / Bol / Proxis tijdschriftsites: Publist / OCLC Firstsearch / Ingenta nieuwsbrieven: NewJour e-bibliofoons: Aladin / Allexperts / Google Answers discussielijsten/nieuwsgroepen (5) encyclopedie bibliografie feitelijke naslag boeken tijdschriften nieuwsbrieven vraag/antwoord

  29. 5 Interactief: discussielijsten • werkt via Email (later ook vaak web-interface) • vaak eerst abonneren, verzenden alleen door abonnees • vrij sterke communities • soms zeer hoge kwaliteit • zoeken lijsten: topica, catalist, jiscmail.ac.uk, listserv.surfnet.nl, groups.yahoo

  30. 5 Interactief: nieuwsgroepen • heet: usenet, news, forums, groups • apart protocol • vereist newsreader (kijk bij Tucows of ZDNet) of: • lezen via archief bij Google • voor specifieke problemen (foutmeldingen) • voor laagdrempelige, actuele discussies • voor sociaal-cultureel en taal(historisch) onderzoek • vluchtig, wilde westen, illegale zaken • functies deels overgenomen door vele internetfora a la fok.nl

  31. 5-o maak nu de opdrachten bij onderdeel 5

  32. 6 bijblijven: current awareness, spionnen & attenderingen • nieuwe sites: • email nieuwsbrieven met nieuwe sites (Scout report, lii.org, • weblogs • webalerts/trackers (GoogleAlert, Google Web Alerts, Karnak) • offline search engines als Copernic • veranderde pagina’s: • page-alerts/spionnen: • desktop: C4U / Copernic Tracker / Website Watcher • of evt. webdienst: Trackengine, Infominder, Profusion • nieuws: • gespecialiseerde sites bekende media (BBC, CNN) • zoeken in nieuws (Yahoo, Daypop, Google (laatste niet nl)) • Google news alert • page alerts op resultaat nieuwszoekactie • nieuwspagina’s als nu.nl • RSS-nieuwsdiensten

  33. 6 RSS • Rich Site Summary / Really Simple Syndication • Voor sites met (on)regelmatig nieuwe actuele inhoud, bv nieuwsbrieven, weblogs • Lezen, beheren als ware het email • Maakt gebruik van xml-structuur • Vereist software (reader), bv Feedreader (gratis) of Feeddemon • Toevoegen van een ‘feed’: klik bij pagina op oranje xml-logo en voeg van die pagina url toe aan reader • Drie nauwverwante formats: rss/atom/rdf • Zoeken berichten: Daypop, Feedster, Blogpulse, Technorati • Syndicatie gebuert ook op het web (bv. LISfeeds.com)

  34. 6-o Maak de opdracht bij onderdeel 6

  35. 7 WWW zoekparadox • <1995: beperkte zoekmachines • 1995-1997: gouden tijd zoekmachines • 1998-2000: professionalisering websites • 2000 e.v.: sterke groei zoekmachines, maar: diepe web blijft lastig • Kortom: hoe beter de organisatie van websites, hoe lastiger inhoud te vinden is, want zit in databases

  36. 7 Zoeken naar databases • Bright Planet’s Complete Planet • Internets.com • via Invisibleweb.net van Gary Price • via gewone onderwerpsgidsen of zoekmachines, bijvoorbeeld Yahoo

  37. 7 Zoeken in databases • via individuele databasetoegang • meer dan 1 tegelijk: met behulp van offline search engines: Copernic of Bull’s Eye (evt. Lexibot) • meer dan 1 tegelijk: via Intelliseek’s Profusion op het web (beperkt) • traditioneel: online hosts (overlap met webdatabases) • technologische oplossing: open-url

  38. 7-o opdrachten databases • Maak nu de opdrachten bij onderdeel 7

  39. 8 Bronnen van zoekkennis • Searchenginewatch (Sullivan, Sherman) • Searchengineshowdown (Notess) • Voelspriet (Van Ess) (forum) • Zoekprof (Stielstra) • Weblogs: Resourceshelf (Price), Researchbuzz (Calishain) • Kritische verhalen: Digital Reference Shelf (Jasco) • Tutorials (Complete Planet, Science Direct) • Literatuur: • The Searcher, Informatie Professional, Online, D-Lib, Freepint • De wetenschappelijke tijdschriften (JiS, WWW, JAL) • Eigen tests!!!!!!!!

  40. 8-o opdrachten bronnen van zoekkennis • Maak nu de opdrachten bij onderdeel 8

  41. 9 Zoeksystematiek • Verkenning • Zoekprofiel: • Onderscheiden elementen • Vooraf genereren zoektermen • Keuze gids/zoekmachine • Daadwerkelijk zoeken • Bij zoekmachine eerste smal, dan breed, dan evt weer inzoomen • Tweede zoekmachine • Eventueel andere typen bronnen (gedrukte literatuur, deskundigen) • Expliciete reflectie op zoekproces en zoekresultaat • Bij doorlopende interesse evt. web en page alerts instellen

More Related