1 / 19

Internet Suchmaschinen

Internet Suchmaschinen. basiert auf: Arasu Arvind et. al., Searching the Web , 2000 http://www-db.stanford.edu/~backrub/google.html S. Brin, L. Page, The Anatomy of Large-Scale Hypertextual Web Search Engine , 1998 http://www-db.stanford.edu/~rsram/pubs.html. Ref. Paula Barros.

jalena
Download Presentation

Internet Suchmaschinen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Internet Suchmaschinen basiert auf: Arasu Arvind et. al., Searching the Web, 2000 http://www-db.stanford.edu/~backrub/google.html S. Brin, L. Page, The Anatomy of Large-Scale Hypertextual Web Search Engine, 1998 http://www-db.stanford.edu/~rsram/pubs.html Ref. Paula Barros Linguistische Methoden bei Internet-Suchmaschinen

  2. 1W W W • über eine Billion Seiten sind verfügbar; • der Inhalt des Webs hat sich innerhalb von 2 Jahren verdoppelt [Giles, 1999]; • ältere Seiten werden regelmäßig erneut: • 23% von eine halbe Million wird täglich geändert; • 40% von ‘.com’ Seiten werden täglich erneut; • ‘Halbwertszeit’ von Seite beträgt 10 Tage; • Schleife Effekt [Broder et. al., 2000]: • 28% der Seiten bilden einen starken verbundenen Kern; • 22% der Seiten representieren eine Windung (kann vom Kern erreicht werden, aber nicht umgekert); • 22% der Seiten representieren die andere Windung (erreicht den Kern).

  3. General Search Engine Architecture1 1Aus: Arvind Arasu et. al., Searching the Web

  4. 2 Crawler Module Programm, das das Web nach einer Menge vorher gegebenen URLs sucht • da es nicht möglich ist, alle Seiten des Webs herunterzuladen, sollte es: • Seiten selektieren: die besten Seiten zuerst auswählen; • Seiten wieder besuchen: welche Seiten werden am ehesten nochmals besucht; • Seiten Duplikation vermeiden: das ‘crawling’ Prozess optimizieren in dem die verschiedenen Crawlers nicht die gleiche Seite besuchen; In dieser Arbeit werden die erste zwei Punkte analysiert.

  5. Crawl & Stop Dieses Modell sollte einen bestimmten Anzahl K von Seiten besuchen (die, die es herunterladen kann); Es soll die sog. ‘hot Pages’ besuchen, die später nach einem Seiten Rang (R1,...Rk) bewertet werden; (R1: höchste Rang; Rkniedrigste Rang); Crawl & Stop with Treshold Wieder besucht der Crawler ein Anzahl K von seiten. Diesmal aber gibt es einen Wichtigkeitswert G , der informiert ab wann eine Seite eine ‘hot Page’ ist. In diesem Fall sind 'hot Pages' diejenigen, deren Wichtigkeitswert gleich oder höher als G ist. 2 Crawler Modelle

  6. 2 Seiten selektieren Importance Metrics (Es gibt drei 'Wichtigkeitsparameter' um Seiten aus dem Web zu selektieren. Diese Parameter können auch kombiniert werden, um bessere Resultate zu erreichen. ) • Interesse: IS(P) • (wichtige Seiten, sind diejenigen die die Interessen des Benutzers wiedergeben) • vorausgesetzt, dass die Abfrage diese Interessen wiedergibt: • wird die Similarität zwischen Abfrage und Dokument festgestellt: • wie oft das Wort im Dokument vorkommt; • wie 'selten' das Wort im Web vorkommt: idf (inverse document index) • wenn noch nicht alle Seiten vorhanden sind, wird diesen Wert aus den vorhandenen Seiten geschätz: IS'(P).

  7. 2 Seiten selektieren(Forts.) • Popularität:IB(P) • (wichtige Seiten, sind diejenigen die in vielen anderen Seiten zitiert werden) • z. B. indem man die Links aus dem ganzen Web zählt, die zu einer gegebenen Seite führen; • Lokal: IL(P) • (wichtige Seiten, sind diejenigen die sich auf einen bestimmten Lokal finden) • z. B. Seiten ‘.com’ oder diejenigen die ‘home’ als String haben, können nützlicher sein als andere; Diese Formel zeigt eine Kombination von Wichtigkeitsparametern: IC(P)= K1*IS(P)+K2*IB(P)+K3*IL(P)

  8. 2 Seiten wieder besuchen 'Frische' • Am neusten sind die heruntergeladenen Seiten einer Sammlung, wenn sie in einem bestimmten Zeitpunkt gleich sind zu ihrem Original im Netz. 'Alter' • Älter werden die Seiten einer Sammlung gesehen, die noch nicht aktualisiert worden sind. Wie werden Seiten renoviert? • Uniform refresh policy: alle Seiten werden gleichermassen wieder besucht (egal wie oft sie verändert werden). • Proportional refresh policy: die Seiten, die häufiger aktualisiert werden, sind diejenigen die am häufigsten besucht werden.

  9. 3 Speichern - Page Repository • Skalierbarkeit (es muss möglich sein das Speichern in mehrere Computer und Festplatten zu verteilen); • dualer Zugriff: • Random Access(eine Seite schnell holen; damit die Abfrage Maschine die vorhandenen Kopien für den Benutzer holt); • Streaming Access(damit der Indexer ein Teil oder das ganze Menge der Seiten holen kann); • Umfangreiche Updates (der Raum muss neu organisiert, und komprimiert werden um neueren Versionen von Seiten aus dem Netz zu speichern); • tote Seiten (sollte einen Mechanismus haben um diese Seiten zu entfernen).

  10. 3 Page Repository • Die Verteilung der Seiten in Knoten kann durch verschiedene Methoden gemacht werden, z. B.: • Uniform Distribution Policy(die Knoten bekommen irgendeine Seite zugeteilt); • Hash Distribution(Die Allokation von Seiten zu Knoten hängt von dem Seiten ID ab); • interne Organization: • Hash (eine Festplatte (oder mehrere) werden in 'hash buckets' nach den Seiten IDs geteilt); • Log(die Festplatte wird als ein einziges Archiv gesehen, wo die neue Seiten hingefügt werden); • Log-Hash(die Speicherung erfolgt auf grosse Flächen. Die Seiten werden nach ihren ID darin geordnet, und jede Fläche ist in Form eines Logs (Archiv) organisiert);

  11. 3 Page Repository • Aktualizationsstrategien: • Inplace-update (die neue Versionen werden sofort integriert, wobei die alte Seiten möglicherweise durch die neuere Versionen ersetzt werden); • shadowing(die neuere Versionen werden getrennt von der Sammlung gespeichert. Die Aktualizierung der Seite erfolgt später);

  12. 4 Indexierung • Link Indexierung • wird wie einen Graph modelliert; • muss erweitbar sein; • besteht aus 'Nachbarschaft'Information: • die Menge der Seiten, die Seite P zeigt (outward links); • die Menge der Seiten, die auf Seite P hinweist (incomming links).

  13. 4 Indexierung • Text Indexierung • ist notwendig um Textsuche zu unterstützen; • Verschiedene Typen, z. B.: • die sog. 'inverted lists' (sortierten Listen mit dem Lokal1, wo die Wörter sich in der Sammlung befinden; • Lexikon: • Liste mit allen Wörtern, und einige statistische Informationen (z. B.: Anzahl der Seiten, wo das Wort vorkommt); 1Lokal beinhaltet mindestens ein SeitenID und die Position des Wortes

  14. 4 Indexierung Aus: Arvind Arasu et. al., Searching the Web

  15. 5 Ranking und Link Analyse • Links können: • eine Art von 'Empfehlung'von einer bestimmeten Seite entsprechen; • auch für eine 'Keyword' Suche/Abfrage verwendet werden; • dazu helfen eine Hierarchie zu bilden, wie sie in 'Yahoo' vorkommt. • zwei Strategien die sich auf Link Analyse basieren: • PageRank • HITS

  16. PageRank Ist ein Vorstellung der Wichtigkeit einer Seite (die Anzahl von Seiten die auf eine bestimmnte Seite hinaufweisen) • Es enspricht: • IB(P) • die Qualität der Zitierungen • es ist Rekursiv, denn die Wichtigkeit einer Seite hängt ab von anderen Seiten und beeiflusst sie. • 'a model of user behaviour' [Brin, Page, 1998]: • es 'springt' von Link zu Link ohne zurückzukommen; • auf einen gegeben Punkt, gibt es diese Suche einfach auf und beginnt eine neue willkürliche Suche (oder auch nicht!)

  17. HITS (Hipertext Induced Topic Search) Das ist eine Rangstrategie, die von der Abfrage abhängt. Sie produziert zwei Rangmethoden: • 'authority score': sind die wichtigsten Seiten • 'hub score': sind die Seiten die auf mehrere wichtige Seiten hinweisen

  18. 6 Search • Parse the query. • Convert words into wordIDs. • Seek to the start of the doclist in the short barrel for every word. • Scan through the doclists until there is a document that matches all the search terms. • Compute the rank of that document for the query. • If we are in the short barrels and at the end of any doclist, seek to the start of the doclist in the full barrel for every word and go to step 4. • If we are not at the end of any doclist go to step 4. • Sort the documents that have matched by rank and return the top k. • Figure 4. Google Query Evaluation Aus: S. Brin, L. Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine

  19. Einige Suchmachinen • www.google.com (hat auch Startseiten auf andere Sprachen, u. a. Deutsch) • www.altavista.com (hat auch Startseiten auf andere Sprachen, u. a. Deutsch) • www.alltheweb.com (hat auch Startseiten auf andere Sprachen, u. a. Deutsch) • www.northernlight.com • www.yahoo.com (hier kann man die Startseite personalisieren) • www.excite.com • www.lycos.com

More Related