440 likes | 736 Views
Internetzoeken inleidingen en opdrachten. Jeroen Bosman VOGIN, voor HVU Utrecht. Kenmerken zoekexpert. Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces. Programma.
E N D
Internetzoekeninleidingen en opdrachten Jeroen Bosman VOGIN, voor HVU Utrecht
Kenmerken zoekexpert • Kennis onderwerp • Bronnenkennis • Kennis zoektools • Talenkennis, taalcreativiteit • Logica • Zorgvuldig gebruik zoektools • Snelheid • Reflectie op eigen zoekproces
Programma 9:30 / welkom, introductie 9:40 / zoeken op het web en bijbehorende tools (1) 10:30 / gevorderde zoekmachine-tactieken (2) 12:00 / lunchpauze 13:00 / mini-workshop: bronnenkennis (4) 13:45 / interactieve bronnen: nieuwsgroepen/discussielijsten (5) 14:10 / current awareness & attenderingen (6) 15:00 / databases op internet: het diepe web (7) 14:40 / bronnen van zoekkennis (8) 15:30 / systematisch zoeken en case studies: (9)
1 Inhoud WWW: algemeen • Omvang: 11,5 miljard + databases + FTP • Weinig wetenschappelijke teksten onafgeschermd • Kwaliteit • Betrouwbaarheid • Actualiteit • Kosten/afscherming
1 Zoeken: benaderingen • Aanbieders • Bekende pagina’s • URL verzinnen • Onderwerpsgids • Zoekmachines • Online vragen stellen
1 Inhoud WWW: aanbieders • Bedrijven • Overheid • Internationale organisaties • Verenigingen, actiegroepen • Universiteiten • Bibliotheken • Uitgevers • Particulieren
1 zoektools: wanneer wat? • indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines • indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen
1 Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages
1 Onderwerpsgidsen: breed • internationaal/VS: • Open Directory(in Gigablast extra zoekfuncties hiervoor) • Yahoo • Looksmart • Nederlands: • startpagina+dochters en concurrenten • startnederland (meta-gids)
1 Onderwerpsgidsen: gespecialiseerd • Miljoenen • Breed wetenschappelijk: Infomine, Internet Scout • Zoeken: • via Yahoo (per onderwerp onder ‘webdirectories’) • via Open Directory of Startnederland • via RDN (wetenschappelijk) • via Pinakes (wetenschappelijk) • Tijd besteden aan vinden van goede onderwerpsgidsen: • via collegae • via discussielijsten
1 Zoekmachines: dekking • > 15% van de webpagina’s in geen enkele van de grootste zoekmachines • Van resterende wel geïindexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (http://www.cs.uiowa.edu/~asignori/web-size/) • dekking zeer ongelijkmatig • verschil in actualiteit (Google/MSN meest vers volgens studie uit 2003) • langzame groei dekking bij subtop: Teoma, Gigablast, Ask(Jeeves) • verschil in dekking: Teoma en Wisenut beperkt in Nederland
1 Zoekmachines: ontwikkeling • Webcrawler, Lycos, Alta Vista (10) • concurrentie Hotbot, Excite, Yahoo (50) • 1997 Northern Light, MSN, sterke groei web > 200 • 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) • 2002 komst Teoma, Wisenut, Gigablast (1000) • 2003 renaissance AV, glorietijd Google (3000) • 2004 consolidatie/concurrentie (4000): • Google+Blogger, verbreding: boeken, kritiek, beursgang • Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW • Microsoft: introductie MSNsearch beta: zelf indexeren • 2005 verbreding/innovatie/content (5000-10000) • Samenwerking content providers-zoekmachines? • Opkomst vijfde grote speler, Amazon met A9? • Doorgroei Gigablast (2000)
1 Zoekmachines: wat vind je niet? • recente webpagina’s/wijzigingen • bij sommige: PDF en andere niet html bestanden • tekst onderaan zeer lange documentendynamisch gegenereerde pagina’s • informatie in databases • pagina’s met no robots file • pagina’s met toegangsrestricties • verdwenen pagina’s (maar: Google/Gigablast cache en Wayback Machine archive.org)
1 Zoekmachines: beperkingen Google • genest Booleaans zoeken > Yahoo/MSN/Gigablast • backlinksindex vrij klein > Yahoo • zoeken beperken tot meer dan 1 specifieke site > Gigablast • zeer grote pagina’s niet volledig geïndexeerd > Yahoo • truncatie > Exalead
1-o opdrachten zoektools Maak nu de opdrachten bij onderdeel 1
2 vaak gebruikte relevantie criteria • hoe meer van de gevraagde termen, hoe beter • als termen in titel of begin document staan, des te beter • hoe vaker die termen in document herhaald worden, hoe beter • hoe dichter termen bij elkaar en in zelfde volgorde staan, hoe beter • zeldzame term krijgt hoger gewicht dan heel algemene term • termen in opsommingslijst hoger gewicht en: "populaire" pagina's zijn relevanter • aantal backlinks • aantal links op herkomstpagina van backlinks (zorgt voor ‘traagheid’)
2 domeinen • soorten top-level-domains (TLD) • generiek: • com / org / net (vrij) • int / edu / gov / mil / arpa (beperkt) • landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) • jump: tv / nu / to / tk • nieuw: biz/info/name/coop/pro/aero • generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie http://www.derbal.com/domains.html)
2 opbouw URL • protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie • http : // www . library . uu . nl / geosource / index . html
2 URL’s van databasepagina’s • http://hardy.library.uu.nl:4505/ALEPH0/SESSION66067604868/scan?VALUE=geografische+huis&SCAN=TIT • http://www.ussc.alltheweb.com/cgi-bin/advsearch?offset=40&terms=3&type=any&query=utrecht&exec=FAST+Search&lang=any&enco=iso-88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on
2 recall-killers en precisie-killers bij zoekmachines • recall-killers: • verkeerde bron: -> probeer andere • verkeer spelling: -> woordenboeken • woordvarianten gemist: -> trunceren • te smalle zoektermen • precisie-killers • niet genoeg termen (bij best-match) • niet genoeg aspecten (bij Booleaans) • geen inhoudelijke relatie: -> phrase/near • homoniemen • lange webpagina’s bevatten alle termen: -> in titelveld zoeken • effect metatags
2 termen verzinnen • voorbeeldzoeken versus generiek zoeken voor opsommingen (zie ook ‘Google sets’) • gebruik minimaal 2, liever 3-5 termen • gebruik zo mogelijk verwachte zinsneden, denk dan in termen van te vinden document • gebruik eventueel termsuggesties van AV, Gigablast, Teoma of clusters van metazoekmachine Vivisimo • evt. bekijken index van Google Suggest
2-o opdrachten gevorderde zoekmachinetactieken Maak nu de opdrachten bij onderdeel 2
Zoeken: 10 gouden regels • Bedenk wie gezochte informatie zou aanbieden en gok URL daarvan • Gebruik ‘advanced search’ van intern. zoekmachine en lees ‘help’ • Gebruik Google voor vinden van homepages van organisaties, bedrijven etc. • Gebruik voor uitputtende zoektochten Google / Yahoo, evt. Teoma • Gebruik metazoekmachines (Dogpile, Ixquick, Vivisimo) alleen voor zeer specifieke termen • Gebruik i.h.a. algemene onderwerpsgidsen (Yahoo, Open Directory, Looksmart, Startnederland) als u niet in staat bent specifieke termen te verzinnen • Gebruik i.h.a. gespecialiseerde onderwerpsgidsen voor onderwerpen waar u regelmatig naar zoekt en alleen voor homepages en pagina's die niet te diep in een site zitten • Gebruik 2 of meer termen, zo specifiek mogelijk, zo mogelijk een zinsnede ('phrase’) • Gebruik CompletePlanet maar ook onderwerpsgidsen (‘directories’ bij Yahoo-categorieën) om databases te vinden • Gebruik bij te veel resultaat gevorderde opties als beperken met domein, datum, taal, omvang of zoeken op titelwoorden
Lunchpauze (vervolg 13:00)
Aladin All Music Guide Alltheweb Alta Vista Amazon Bartleby BBC Britannica CBS-Statline Columbia Encyclopedia EVD Geassocieerde Persdiensten regionale kranten Geheugen van Nederland Gigablast webzoekmachine+gids Google webzoekmachine Google Groups Google Scholar IMDB Infomine Infoplease Internet Public Library KB Kennisnet Krantenbank Looksmart MSN search OCLC Worldcat Omroep.nl Open Directory Overheid.nl Perinorm Picarta Publist Pubmed Startnederland Swets Teletekst NOS Van Dale GWHN VNG Wettenbank Wikipedia Yahoo gids 4 proefondervindelijk en met overleg in subgroepjes uit 40 brede bronnen de tien beste kiezen
4-o Maak nu (2 aan 2) de opdracht bij onderdeel 4
4 klassiek: bronnenkennis online edities: Britannica / Columbia e-only: Encarta / Nupedia / Wikipedia onderwerpsgidsen: Yahoo / Looksmart / Open Directory / Infomine / RDN / Geosource / WebEC meta: Pinakes/ Yahoo webdirectories bibliografische databases: Google Scholar / FindarticlesPubmed / Eric / MLB / ADSABS e-almakken: CIA World Factbook / Quid integrators: Infoplease / Bartleby / Xrefer statistische diensten: CBS / UN / OESO / Eurostat landen/handelsinformatie: EVD bibliotheek(catalogi): Picarta / Library of Congress / meta: KB-gids fulltextboeken: Gutenberg / DBNL / Wordtheque boekwinkels: Amazon / Bol / Proxis tijdschriftsites: Publist / OCLC Firstsearch / Ingenta nieuwsbrieven: NewJour e-bibliofoons: Aladin / Allexperts / Google Answers discussielijsten/nieuwsgroepen (5) encyclopedie bibliografie feitelijke naslag boeken tijdschriften nieuwsbrieven vraag/antwoord
5 Interactief: discussielijsten • werkt via Email (later ook vaak web-interface) • vaak eerst abonneren, verzenden alleen door abonnees • vrij sterke communities • soms zeer hoge kwaliteit • zoeken lijsten: topica, catalist, jiscmail.ac.uk, listserv.surfnet.nl, groups.yahoo
5 Interactief: nieuwsgroepen • heet: usenet, news, forums, groups • apart protocol • vereist newsreader (kijk bij Tucows of ZDNet) of: • lezen via archief bij Google • voor specifieke problemen (foutmeldingen) • voor laagdrempelige, actuele discussies • voor sociaal-cultureel en taal(historisch) onderzoek • vluchtig, wilde westen, illegale zaken • functies deels overgenomen door vele internetfora a la fok.nl
5-o maak nu de opdrachten bij onderdeel 5
6 bijblijven: current awareness, spionnen & attenderingen • nieuwe sites: • email nieuwsbrieven met nieuwe sites (Scout report, lii.org, • weblogs • webalerts/trackers (GoogleAlert, Google Web Alerts, Karnak) • offline search engines als Copernic • veranderde pagina’s: • page-alerts/spionnen: • desktop: C4U / Copernic Tracker / Website Watcher • of evt. webdienst: Trackengine, Infominder, Profusion • nieuws: • gespecialiseerde sites bekende media (BBC, CNN) • zoeken in nieuws (Yahoo, Daypop, Google (laatste niet nl)) • Google news alert • page alerts op resultaat nieuwszoekactie • nieuwspagina’s als nu.nl • RSS-nieuwsdiensten
6 RSS • Rich Site Summary / Really Simple Syndication • Voor sites met (on)regelmatig nieuwe actuele inhoud, bv nieuwsbrieven, weblogs • Lezen, beheren als ware het email • Maakt gebruik van xml-structuur • Vereist software (reader), bv Feedreader (gratis) of Feeddemon • Toevoegen van een ‘feed’: klik bij pagina op oranje xml-logo en voeg van die pagina url toe aan reader • Drie nauwverwante formats: rss/atom/rdf • Zoeken berichten: Daypop, Feedster, Blogpulse, Technorati • Syndicatie gebuert ook op het web (bv. LISfeeds.com)
6-o Maak de opdracht bij onderdeel 6
7 WWW zoekparadox • <1995: beperkte zoekmachines • 1995-1997: gouden tijd zoekmachines • 1998-2000: professionalisering websites • 2000 e.v.: sterke groei zoekmachines, maar: diepe web blijft lastig • Kortom: hoe beter de organisatie van websites, hoe lastiger inhoud te vinden is, want zit in databases
7 Zoeken naar databases • Bright Planet’s Complete Planet • Internets.com • via Invisibleweb.net van Gary Price • via gewone onderwerpsgidsen of zoekmachines, bijvoorbeeld Yahoo
7 Zoeken in databases • via individuele databasetoegang • meer dan 1 tegelijk: met behulp van offline search engines: Copernic of Bull’s Eye (evt. Lexibot) • meer dan 1 tegelijk: via Intelliseek’s Profusion op het web (beperkt) • traditioneel: online hosts (overlap met webdatabases) • technologische oplossing: open-url
7-o opdrachten databases • Maak nu de opdrachten bij onderdeel 7
8 Bronnen van zoekkennis • Searchenginewatch (Sullivan, Sherman) • Searchengineshowdown (Notess) • Voelspriet (Van Ess) (forum) • Zoekprof (Stielstra) • Weblogs: Resourceshelf (Price), Researchbuzz (Calishain) • Kritische verhalen: Digital Reference Shelf (Jasco) • Tutorials (Complete Planet, Science Direct) • Literatuur: • The Searcher, Informatie Professional, Online, D-Lib, Freepint • De wetenschappelijke tijdschriften (JiS, WWW, JAL) • Eigen tests!!!!!!!!
8-o opdrachten bronnen van zoekkennis • Maak nu de opdrachten bij onderdeel 8
9 Zoeksystematiek • Verkenning • Zoekprofiel: • Onderscheiden elementen • Vooraf genereren zoektermen • Keuze gids/zoekmachine • Daadwerkelijk zoeken • Bij zoekmachine eerste smal, dan breed, dan evt weer inzoomen • Tweede zoekmachine • Eventueel andere typen bronnen (gedrukte literatuur, deskundigen) • Expliciete reflectie op zoekproces en zoekresultaat • Bij doorlopende interesse evt. web en page alerts instellen