1 / 15

Metasuchmaschinen

Metasuchmaschinen. Von Martin Wisotzky Henry Kadow. Inhalt. Webverzeichnisse & Suchmaschinen Würmer, Spinnen und Kriecher Warum Metasuchmaschinen ? Architekturen Vor und Nachteile Kriterien Ranking Alternativen & Weiterentwicklungen. Webverzeichnisse & Suchmaschinen I.

Download Presentation

Metasuchmaschinen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metasuchmaschinen Von Martin Wisotzky Henry Kadow

  2. Inhalt • Webverzeichnisse & Suchmaschinen • Würmer, Spinnen und Kriecher • Warum Metasuchmaschinen ? • Architekturen • Vor und Nachteile • Kriterien • Ranking • Alternativen & Weiterentwicklungen

  3. Webverzeichnisse & Suchmaschinen I

  4. Webverzeichnisse & Suchmaschinen II

  5. Würmer, Spinnen und Kriecher- Meta-Tags - • Anmeldung von Html-Seiten • Schnittstelle zur Datenbank • Url wird nach Filtern (Spam, gesperrt etc.) aufgenommen 4.-7. Robots machen Anfrage an Hyperlinks angemeldeter Seiten und sammeln Daten (Schutz durch robots.txt) • Indizierung wertet Daten aus (Volltext, Verschlagwortung (Meta-Tags), Wort-Statistiken, Bild & Video) • Verwaltung und Aufbereitung • Einfache Abfrage (und, oder), Profisuche (Boolsche Operatoren) • Rankingskriterien • Ausgabe

  6. Würmer, Spinnen und Kriecher- Meta-Tags - II • Anweisungen über Meta-Tags: • Description (250 Zeichen) und Keywords (1000 Zeichen) • Enthalten zusätzlich: Autor, Erstellungsdatum, Thema... • Erweiterte Tags: Dublin Core Schema (kaum umgesetzt) • 20 % nutzen Meta-Tags (einige zu betrügerischen Zwecken) • Problem: nur etwa 10% enthalten "irgendwie brauchbare" Metadaten. • Für praktische Nutzung durch Internet-Suchmaschinen derzeit keine Basis.

  7. Warum Metasuchmaschinen ? • NEC Forschungsinstitut: Suchdienste greifen auf die 800 Millionen Webseiten nur unzureichend zu. (Princeton-Studie 1998) • Bildet man die Vereinigung aller 11 Suchmaschinen kommt man auf 42%. • Verzerrung bei normalen Suchmaschinen (US) • Meta-Suchmaschinen (Suchmaschinen, welche die Suchmaschinen absuchen) • Bsp. MetaGer

  8. Architekturen

  9. Vor- und Nachteile • Vorteile: • Breiteres Spektrum: Befragung von Suchmaschinen, Webverzeichnissen und dynamischen Webangeboten (Enzyklopädien, Wörterbücher, Newsgroups)

  10. Vor- und Nachteile • Nachteile: • Ungenau: meist nur Titel und Beschreibung (Zeitgründe) • Oft „getürkte“ Ergebnisse, da viele Suchmaschinen für gute Rankings bezahlen lassen

  11. Kriterien • Parallele Suche (keine all-in-one Forms) • Zeitgleiche Abfrage und Verarbeitung • Ergebnis-Merging • Ergebnisse in einheitlichem Design • Doubletten-Erkennung • Eliminierung mehrfacher Suchergebnisse • Übernahme Kurzbeschreibung • Mehr Informationen aus angeschlossenen Suchmaschinen • mindestens AND und OR Operatoren • Beide logischen Operationen möglich (weitere: near, not) • Searchengine hiding • Filterung spezifischer Merkmale • Möglichkeit vollständige Suche

  12. Kriterien II

  13. Ranking • ideal: KOMBINATION Meta-Algorithmen mit Metadaten • real: derzeit keine verwertbare Basis für Metadaten • Weg derzeit: Wortanalysen • aus Dokument-Teilen (MetaGer) • Wortanzahl im Titel, URL und Kurzbeschreibung • Ranking-Kennzahl des Suchdienstes • aus vollständigem Dokument (Level3) • G 1 = Anz.vork.Terme / Ges.zahlTerme • G 2 = 1 - Summe ( Summe ( minTermDistanzen ))/C "je näher die Terme beieinander, desto besser" • G 3 = f ( einzelTermVerteilung ) "je gleichverteilter jeder Einzelterm, desto besser" • G 4 = Anz.versch.Worte / Ges.zahlWorte "Spam-Erkennung" • RANK = Summe ( g i * G i) = 0 .. 1 mit Summe ( g i ) = 1

  14. Alternativen & Weiterentwicklungen • Level3 • Verfahren zur autom. Generierung themenorientierter Suchmaschinen. • Clustering (Turbo10) • Fasst Begriffe nach Bedeutung zusammen (z.B. Salsa -> Tanz, Rezept) • Clustering Engine (Vivisimo) • Durchsucht Suchmaschinen • Gruppiert die Dokumente nach Titel, URLs und Kurzbeschreibung ordnet diese • Zeigt diese hierarchisch an (Explorer-ähnlich) • QuickCheck • Unausgereifte Volltextsuchenweiterentwicklung von MetaGer • MetaGer-Web-Assoziator • Strategie um Unkenntnis der Sucher zu kompensieren

  15. Alternative Cluster – Search – Engine:

More Related