270 likes | 434 Views
Søking på Internett. Forskar Svein Ølnes Vestlandsforsking, Sogndal. Tema. Informasjonssøk historisk Søk på Internett – historisk tilbakeblikk Ulike typar søketenester Kva er ein søkemotor? Korleis fungerer ein søkemotor? Søkemotor sett frå brukar og frå tenestetilbydar
E N D
Søking på Internett Forskar Svein Ølnes Vestlandsforsking, Sogndal
Tema • Informasjonssøk historisk • Søk på Internett – historisk tilbakeblikk • Ulike typar søketenester • Kva er ein søkemotor? • Korleis fungerer ein søkemotor? • Søkemotor sett frå brukar og frå tenestetilbydar • synlege vevtenester • Kan vi stola på søkemotorane? • omfattar søkemotorane heile Internett? • Informasjonskvalitet, tiltru • annonsar, betalt indeksering, betalte søkeord • Finst det andre søkemotorar enn Google? • Treng vi andre søkemotorar enn Google? • Framtidsutsikter: Bruk av metadata, ”den semantisk veven” • Praktiske tips og råd for betre søking Vestlandsforsking www.vestforsk.no
Informasjonssøk • Computer-aided information search and retrieval • historie om lag like gammal som datamaskinene • første skikkelege gjennombrot på 50-talet i samband med søk og erstatt av uttrykk i lovtekst • IR = Information Retrieval • Før WWW har informasjonssøk særleg vore knytt til databasar og slik sett databasesøk • søk i strukturerte data • Internett/WWW har endra dette ved søk i store, ustrukturerte datamengder Vestlandsforsking www.vestforsk.no
Internett-søk i eit historisk lynglimt • I begynnelsen var.... Archie • utvikla i 1990 av Alan Emtage, pga. Unix-konvensjonar vart ’Archives’ til ’Archie’... • pre-web søkemotor (ftp) • The World Wide Web Wanderer (Wandex) – den første søkeroboten på web’en • Galaxy (1994), den første internett-katalogen • Excite (1993) • WebCrawler (1994) – første fulltekstindeksering av web • Yahoo! (1994) • 10 år med internett-søk har vist at det skjer raske endringar og mange søketenester har relativt kort levetid. Yahoo! er ein av få tenester som har vore med heile tida • AltaVista var ei viktig teneste fram til slutten av 90-talet. På berre ca. eit halvt år forsvant den nesten heilt då Google tok over Vestlandsforsking www.vestforsk.no
Ulike typar søketenester • Katalog • menneskeskapt hierarkisk database over nettressursar (Yahoo, Open Directory, LookSmart, Kvasir) • Søkemotor • robot, database, brukargrensesnitt mot database(Google, AltaVista, Teoma, Kvasir...) • same søkemotor kan vera motor i ulike tenester (Google blir brukt i Yahoo, AOL, Kvasir...) – outsourcing av søk! • Metasøkemotor • søkemotor som brukar andre søkemotorar som kjelde, parallellsøk i mange underliggjande basarHotBot, Queryster, DogPile, Excite, MetaCrawler, Mamma • I praksis er i dag dei fleste søketenester ein kombinasjon av katalog og søkemotor Vestlandsforsking www.vestforsk.no
Kva er ein søkemotor (1) • I Søkerobot (crawler, bot, spider, vevkjerring) • program som følgjer lenker på veven og kopierer informasjon (tekst) inn i den sentrale databasen • II Database • informasjonen samla av roboten blir lagra i ein data-base med ein del tilleggsinfo • indekseringa i etterkant av informasjonsinnhenting inneber m.a. statistikk over ord, plassering av ord i teksten, analyse av lenker m.m. • III Søkegrensesnitt • brukaren sin interaksjon med søkemotoren • enkelt søkefelt eller grensesnitt for avansert søk Vestlandsforsking www.vestforsk.no
Søkemotor: Søkerobot • Søkerobot • ikkje ein, men mange robotar (program) som traverserer nettet og hentar inn informasjon • ei teneste som Google vil vanlegvis indeksera ei vevteneste ein gang i månaden • søkeroboten les vevsider som ein ”primitiv” tekstbasert nettlesar Vestlandsforsking www.vestforsk.no
Søkemotor: Database • Database • full HTML-kopi av alle sider (repository) • dokument-indeks: informasjon om enkeltsider • leksikon • treff-lister (hit lists): førekomstar av ord i eit dokument Vestlandsforsking www.vestforsk.no
Søkemotor: Søkegrensesnitt • Søkegrensesnitt • Søkeboks for enkle søk • Avansert søk med hjelp til avgrensing • Problem: • Ingen standard for søk i søkemotorar • korleis fungerer søket ”epler pærer” i Google? (finsk undersøking viste at > 60% av brukarane tok feil) • Variabel støtte for Boolsk logikk (AND, OR, NOT) • For meir informasjon om oppbygging av ein søkemotor, les ”The Anatomy of a Large-Scale Hypertextual Web Search Engine” av Larry Page og Sergey Brink (grunnleggjarane av Google) Vestlandsforsking www.vestforsk.no
Synlege vevtenester (1) • For sluttbrukar er søkegrensesnittet den synlege delen av søkemotoren • For tenestetilbydar er søkeroboten den viktigaste delen • søkerobotar les vevsider som ”primitive” nettlesarar • http://www.delorie.com/web/lynxview.html for å sjå korleis søkemotoren les sidene • eksempel på usynleg side: www.kjornes.no/start.htm Vestlandsforsking www.vestforsk.no
Synlege vevtenester (2) • Noko av det som kan skapa problem for søkerobotar: • Dynamisk genererte sider (database-baserte tenester) • Java på klientsida • Javascript • Flash • Rammer (frames) • Dersom det er viktig for deg at nettsida er synleg på nettet: bruk enkel teknologi! • tilby i det minste eit nettstadskart som roboten kan bruka som utgangspunkt for indeksering Vestlandsforsking www.vestforsk.no
Kan vi stola på søkemotorane? - Omfang • Søkemotorar dekkar ikkje heile veven • stor usynleg del av nettet (deep web) • informasjon i databasar • lukka område • veven mindre samanvevdenn før trudd • ”Sløyfe-teorien” – Bow Tie • Graph Structure of the WebBroder, Kumar et al. (AltaVista, IBM og Compaq) Vestlandsforsking www.vestforsk.no
Kan vi stola på søkemotorane? - Omfang • Stor, usynleg del av veven • > 500 milliardar vevsider • Google indekserer 4 mrd sider (mindre enn 1 prosent!) • Ikkje all informasjon på store nettstader blir indeksert; ofte berre 3-4 nivå • Teknologiske problem for indeksering • Kor ofte blir sider indeksert (og nye nettstader indeksert for første gang)? Vestlandsforsking www.vestforsk.no
Søkemotorar: Relevans • To viktige omgrep når det gjeld søking: • Precision • er søkeresultatet relevant for søket? • kjem dei mest relevante resultata først i resultatsettet? • kor bra er tenesta til å sortera ut irrelevante dokument? • Recall • kor mange av dei relevante dokumenta finn du? • kan ikkje kontrollerast (dersom vi visste dette, trengde vi ingen søkemotor!) • I praksis er det ikkje skarpt skilje mellom desse to omgrepa. Som eksempel kan nemnast eit standard søk på Google; etter kvart som ein blar fram side etter side med resultat, vil recall auka og presisjon minka • TREC (Text REtrieval Conference – initiert av National Institute of Standards and Technology (NIST) er eit viktig forum for forsking innanfor området • Eksempel: • Du søker etter info om strutseoppdrett. Det finst 20 relevante dok om temaet. Du finn 16 dok og av desse er 10 relevantePrecision = 62% (10/16) og Recall = 50% (10/20) Vestlandsforsking www.vestforsk.no
Kan vi stola på søkemotorane? - Tiltru • Kven står bak informasjonen? • autoritativ kjelde? • kommersiell aktør? • privatperson? • ingen opplysning? • referansar? • oppdatering? • Er informasjonen • ekte? • uavhengig? • objektiv? • inngir tillit? Vestlandsforsking www.vestforsk.no
Kan vi stola på søkemotorane? - Betaling • Sponsing/reklame • Betaling for å bli vist ved visse ord - Paid listing/paid placement/pay per click • FTC – Federal Trade Commission – innførte i 2002 tilrådingar for søketenester for å skilja klart mellom betalt og ikkje-betalt innhald • Betalt indeksering (paid inclusion) • Garanti for å bli indeksert, men ikkje for å bli synleg (i prinsippet) • Søkemotorane tek store sjansar om dei blandar saman ikkje-betalt innhald (”redaksjonelt stoff”) og betalt (”annonsar”). På lang sikt livsfarleg for tilliten. Vestlandsforsking www.vestforsk.no
Finst det andre søkemotorar enn Google? • Fort å sjå seg blind på ein dominerande aktør som Google • bør stadig prøva ut andre søkemotorar • nisjesøk • dersom du søker etter offentleg informasjon i Norge, bør norge.no vera ein betre søkemotor enn Google (men ikkje heilt sikker på at den er det...) • Kvasir er avgrensa til .no-domenet og bør slik sett kunna gi betre resultat enn ei meir omfattande teneste (i realiteten er det Google som leverer søkeresultat til Kvasir; skilnaden blir emnekatalogen Kvasir har bygt opp) • Startsiden.no tilbyr søk i Google, Kvasir, AltaVista, Yahoo! og Alltheweb (som no er ein del av Yahoo!) • Google har i dag ein for dominerande rolle sidan den også blir brukt som motor for mange av dei viktigaste konkurrentane • Meir informasjon: • Search Engines and controversy: http://www.firstmonday.dk/issues/issue9_1/gerhart/ Vestlandsforsking www.vestforsk.no
Mest brukte søkemotorar (januar 2004) GG = Google YH = Yahoo MSN = Microsoft AOL = America Online AJ = Ask Jeeves Panel på meir enn 60 000 brukarar i USA Vestlandsforsking www.vestforsk.no
Kva for ein søkemotor? • Same søkemotoren kan vera brukt på mange søketenester: • Google er også søkemotor for tenester som • Yahoo! (heilt fram til årsskiftet) • AOL (America Online) • Kvasir (Scandinavia Online – SOL) • Yahoo! har gjennom oppkjøp følgjande søkemotorar: • Inktomi • AltaVista • AlltheWeb (FAST) • gjennom Inktomi gir dei søkeresultat for MSN (Microsoft) Vestlandsforsking www.vestforsk.no
Treng vi andre søkemotorar enn Google? • Kontroll av søk er ein sterk maktfaktor på nettet; søk er den viktigaste måten å finna ny informasjon • Søkemotorane opererer tilslørt: • vi veit ikkje korleis dei vektlegg informasjon • vi veit ikkje kva kriteria dei brukar for utval • vi veit ikkje om det skjer manipulering av informasjon • kort sagt: vi veit svært lite om korleis dei opererer • Sjå opp for ”Nye Yahoo!” – dei vil truleg bli ein hardare konkurrent for Google Vestlandsforsking www.vestforsk.no
Misbruk av søkemotorar • Pornoindustrien har vore og er den største utfordraren for søkemotorar • stadig nye, ”innovative” løysingar for å lura søkemotorane • ulike kampanjar blir førte ved hjelp av (misbruk av) søkemotorar; t.d. ”Google bombing” • eks.: søk på ”miserable failure” i Google • Misbruk av søkemotorar kan føra til svartelisting/utestenging • ingen klare reglar, men visse generelle tilrådingar for å unngå dette • ”skriv for folk, ikkje for søkemotorar” er den mest generelle tilrådinga Vestlandsforsking www.vestforsk.no
Framtida for internett-søk • Søketenester på Internett vil fortsatt bli viktig framover • Etter kvart som e-handel tek av, vil søk knytt til dette blir viktigare • Lokale søk, personalisering • Oppkjøp og konsolidering; søkeindustrien har vore gjennom ei tid med mange oppkjøp og reduksjon av aktørar; eit spenningsmoment er kva Microsoft vel å gjera på søkeområdet (kjøpa Google eller utvikla eigen søketeknologi?) • Ein stadig større del av veven er basert på XML; det kan gi gevinstar for søk i framtida Vestlandsforsking www.vestforsk.no
Den semantiske veven • Søkemotorar er trass i imponerande resultat på søk nokså ”primitive”; det er stort sett tal (statistikk) det handlar om • Søkemotorane forstår ikkje kva søket gjeld – du vil vanskeleg få svar på søk av typen ”kor mange av Ibsens verk har vore utgangspunkt for film?” • ”Den semantiske veven” er eit Internett der informasjonen blir forstått [av maskiner] • Viktige initiativ: • RDF – Resource Description Framework • Topic Maps - emnekart Vestlandsforsking www.vestforsk.no
Praktiske råd ved søk (1) • Installer søke-verktøylinje! (aukar bindinga til søkemotoren, men likevel veldig praktisk) • Finn ut korleis søkemotoren fungerer (boolske operatorar, søkespråket generelt) • For mange treff/for lite relevante treff(myte: søkemotorane er ubrukelege fordi dei returnerer så mange treff – det spelar ingen rolle kor mange treff dei returnerer, berre dei første treffa er relevante nok!) • innsnevring (i Google ved å leggja til fleire søkeord, eller ”søk innafor treff”) • For få treff: • utvid søket ved å ta bort søkeord eller brukar andre uttrykk Vestlandsforsking www.vestforsk.no
Praktiske råd ved søk (2) • Bruk utvida søk/avansert søk(undersøkingar viser at berre 2-3% av brukarane nyttar avansert søk! ”Avansert søk” er dessutan heilt misvisande; det er det enkle søket som er avansert, ”avansert søk” er heller ”søk med støttehjul”) • For lettare utnytting av avanserte funksjonar: sjekk ut www.soople.com – nytt grensesnitt mot Google • Bruk av søkefeltet som kalkulator • Fleire tips: • Google Guide: http://www.googleguide.com/ Vestlandsforsking www.vestforsk.no
Analyse av resultat-treff, Google Vestlandsforsking www.vestforsk.no
Meir informasjon • SearchEngineWatch – www.searchenginewatch.com • www.notess.com / SearchEngineShowedown • www.highrankings.com – Highrankings.com, mest for søkemotor-optimalisering [SEO] • www.extremesearcher.com • TREC – Text REtrieval Conferensehttp://trec.nist.gov (TREC 2004: 16.-19. nov., USA) • ACM Special Interest Group on Information Retrieval (SIGIR) • Search Engine Meeting (årleg konferanse) • SEM 2004 arr. i Haag, Nederland, 19. og 20. april) • Google Papers - http://labs.google.com/papers.html Vestlandsforsking www.vestforsk.no