1 / 56

Sådan virker

Sådan virker. Gerth Stølting Brodal Datalogisk Institut Aarhus Universitet 16. maj 2012. (måske). Hvornår har du sidst brugt Google ?. Seneste time Idag Denne uge Denne måned Aldrig. Internetsøgemaskiner (April 2012). marketshare.hitslink.com. Historiske Perspektiv.

gale
Download Presentation

Sådan virker

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sådan virker GerthStøltingBrodal DatalogiskInstitut Aarhus Universitet 16. maj 2012 (måske)

  2. Hvornår har du sidst brugt Google? • Seneste time • Idag • Denne uge • Denne måned • Aldrig

  3. Internetsøgemaskiner(April 2012) marketshare.hitslink.com

  4. HistoriskePerspektiv • 1969 Første ARPANET forbindelser - startenpåinternettet • 1971 Første email, FTP • 1990 HTML sprogetdefineres • 1991-1993 få kender til HTML • 1993 Mosaic web-browser • 1993 Lycos • 1994 WebCrawler • 1995 Yahoo!, Altavista • 1998 Google • 2004 Facebook • 2005 YouTube • ....

  5. Internettet — WorldWideWeb • Meget stor mængde ustruktureret information. • Hvordan finder man relevant info? Søgemaskiner! • 1994 Lycos,. . . • 1996 Alta Vista: mange sider • 1999 Google: mange sideroggod ranking

  6. SøgemaskinernesBarndom Henzinger @ Google, 2000

  7. 2004

  8. 2009

  9. 2012

  10. ModerneSøgemaskiner Imponerende performance • Søger i 1010 sider • Svartider 0,1 sekund • 1000 brugereisekundet • Finder relevantesider

  11. Nye Krav til Søgemaskiner • Dynamiske websider: Nyheder, Twitter, Facebook, ... • Personlig ranking: Baseret på hidtige besøgte websider, gmail, social netværk, geografisk placering...

  12. Starteti 1995 somforskningsprojektvedStanford Universitet af ph.d. studerende Larry Page og Sergey Brin • Privat firma grundlagt 1998 • Ansvarlig for hovedparten afalle internet-søgninger • Hovedsædei Silicon Valley google≈ googol = 10100

  13. Hvilken Google bygning er dette ? • Arkiv over periodiske kopier af internettet • Supercomputer • Laboratorium for højhastighedsnetværk • Distributionslager af firma løsninger

  14. Hvilken Google bygning er dette ? • Arkiv over periodisk kopier af internettet • Supercomputer • Laboratorium for højhastighedsnetværk • Distributionslager af firma løsninger

  15. (2004) • Cluster af +10.000 Intel servere med Linux • Single-processor • 256MB–1GB RAM • 2 IDE diske med 20-40Gb • Fejl-tolerance: Redundans • Hastighed: Load-balancing

  16. Google server, april 2009

  17. Datacentre (gæt 2007) • INTERNATIONAL • Toronto, Canada • Berlin, Germany • Frankfurt, Germany • Munich, Germany • Zurich, Switzerland • Groningen, Netherlands • Mons, Belgium • Eemshaven, Netherlands • Paris • London • Dublin, Ireland • Milan, Italy • Moscow, Russia • Sao Paolo, Brazil • Tokyo • Hong Kong • Beijing USA • Mountain View, Calif. • Pleasanton, Calif. • San Jose, Calif. • Los Angeles, Calif. • Palo Alto, Calif. • Seattle • Portland, Oregon • The Dalles, Oregon • Chicago • Atlanta, Ga. (x 2) • Reston, Virginia • Ashburn, Va. • Virginia Beach, Virginia • Houston, Texas • Miami, Fla. • Lenoir, North Carolina • Goose Creek, South Carolina • Pryor, Oklahoma • Council Bluffs, Iowa

  18. www-db.stanford.edu/pub/papers/google.pdf

  19. En søgemaskines dele Indsamlingaf data • Webcrawling (gennemløbaf internet) Indeksering data • Parsningafdokumenter • Leksikon: indeks (ordbog) over alleordmødt • Inverteretfil: for alleordileksikon, angivihvilkedokumenter de findes Søgningi data • Find alledokumenter med søgeordene • Rankde muligesvar

  20. Webcrawling=Grafgennemløb startside S = {startside} repeat fjern en side sfraS parse sog find alle links (s, v) foreach (s, v) ifv ikke besøgt før indsætviS S

  21. robots.txt @

  22. Robusthed • NormaliseringafURLer • Parsningafmalformet HTML • Mange filtyper • Forkert content-type fra server • Forkert HTTP response code fra server • Enorme filer • Uendelige URL-løkker (crawler traps) • ... Vær konservativ – opgiv at finde alt Crawling kan tage måneder

  23. Hvilken crawling strategierbedst? • Breddeførstsøgning (“ringeivandet”) • Dybdeførstsøgning (“søgi en labyrint”) • Ved ikke startside S = {startside} repeat fjern en side sfraS parse sog find alle links (s, v) foreach (s, v) ifv ikke besøgt før indsætviS S

  24. Hvilken crawling strategierbedst? • Breddeførstsøgning (“ringeivandet”) • Dybdeførstsøgning (“søgi en labyrint”) • Ved ikke startside S = {startside} repeat fjern en side sfraS parse sog find alle links (s, v) foreach (s, v) ifv ikke besøgt før indsætviS S

  25. “Life of a Google Query” www.google.com/corporate/tech.html

  26. Søgningog Ranking Søgning:silkeborgANDgymnasium • Slå silkeborgog gymnasium op i leksikon. Giver adresse på disk hvordereslister starter. • Scan disselisterog “flet” dem (returnérDocID’ersomer med ibeggelister). • Udregn rank af fundne DocID’er. Hent de 10 højst rank’edeidokumentsamlingogreturnér URL samtkontekstfradokumenttilbruger. OR og NOT kan laves tilsvarende. Hvis lister har ord-positioner kan frase-søgninger (“silkeborg gymnasium”) og proximity-søgningner(“silkeborg” tæt på “gymnasium”) også laves. silkeborg: 12, 15, 117, 155, 256, ...gymnasium: 5, 27, 117, 119, 256, ...

  27. Linkbaseret Ranking • Idé 1: Link til en side ≈ anbefaling af den • Idé 2: Anbefalinger fra vigtige sider skal vægte mere

  28. Google PageRankTM ≈ Websurfer PageRankberegningkanopfattessom en websurfersom (iuendelig lang tid) i hver skridt • med 85% sandsynlighed vælger at følge et tilfældigt link fra nuværende side, • med 15% sandsynlighed vælger at gå til en tilfældig side i heleinternettet. PageRank for en side x er lig den procentdel af hans besøg som ertil side x

  29. Simpel Webgraf Hvilken knude har størst ”rang” ? • 1 • 2 • 3 • 4 • 5 • 6 • Ved ikke

  30. Simpel Webgraf Hvilken knude har størst ”rang” ? • 1 • 2 • 3 • 4 • 5 • 6 • Ved ikke

  31. RandomSurfer MetodeRandomSurfer Start påknude 1 Gentag mange gange: Kast en terning: Hvis den viser 1-5: Vælg en tilfældig pil ud fra knuden ved at kaste en terninghvis 2 udkanter Hvis den viser 6: Kastterningenigenog spring hen til den knude somterningenviser

  32. I startenstår man i “1” med sandsynlighed 1.0 ogi “2-6” med sandsynlighed 0.0 Sandsynligheden for at ståi “2” efterétskridt? • 1/6 • 31/36 • 5/6 • 1.0 • Ved ikke MetodeRandomSurfer Start påknude 1 Gentag mange gange: Kast en terning: Hvis den viser 1-5: Vælg en tilfældig pil ud fra knuden ved at kaste en terninghvis 2 udkanter Hvis den viser 6: Kastterningenigenog spring hen til den knude somterningenviser

  33. I startenstår man i “1” med sandsynlighed 1.0 ogi “2-6” med sandsynlighed 0.0 Sandsynligheden for at ståi “2” efterétskridt? • 1/6 • 31/36 • 5/6 • 1.0 • Ved ikke MetodeRandomSurfer Start påknude 1 Gentag mange gange: Kast en terning: Hvis den viser 1-5: Vælg en tilfældig pil ud fra knuden ved at kaste en terninghvis 2 udkanter Hvis den viser 6: Kastterningenigenog spring hen til den knude somterningenviser

  34. Beregning af Sandsynligheder Sandsynligheden for at stå i i efter s skridt:

  35. SimpelWebgraf — Sandsynlighedsfordeling

  36. Konvergens af PageRank Hvor mange skridtskal man beregnesandsynlighedsfordelingen for, før den ikkeændrer sig, nårderermilliarderafwebsider? • 10-20 • 20-50 • 50-100 • 100-500 • 500-1000 • > 1000

  37. Konvergens af PageRank Hvor mange skridtskal man beregnesandsynlighedsfordelingen for, før den ikkeændrer sig, nårderermilliarderafwebsider? • 10-20 • 20-50 • 50-100 • 100-500 • 500-1000 • > 1000 Med sandsynlighed 0.9997 har man lavet et tilfældigt spring inden for de seneste 50 skridt

  38. Søgemaskine Optimering Martin Olsen, ph.d. afhandling, august 2009

More Related