150 likes | 251 Views
Metasuchmaschinen. Von Martin Wisotzky Henry Kadow. Inhalt. Webverzeichnisse & Suchmaschinen Würmer, Spinnen und Kriecher Warum Metasuchmaschinen ? Architekturen Vor und Nachteile Kriterien Ranking Alternativen & Weiterentwicklungen. Webverzeichnisse & Suchmaschinen I.
E N D
Metasuchmaschinen Von Martin Wisotzky Henry Kadow
Inhalt • Webverzeichnisse & Suchmaschinen • Würmer, Spinnen und Kriecher • Warum Metasuchmaschinen ? • Architekturen • Vor und Nachteile • Kriterien • Ranking • Alternativen & Weiterentwicklungen
Würmer, Spinnen und Kriecher- Meta-Tags - • Anmeldung von Html-Seiten • Schnittstelle zur Datenbank • Url wird nach Filtern (Spam, gesperrt etc.) aufgenommen 4.-7. Robots machen Anfrage an Hyperlinks angemeldeter Seiten und sammeln Daten (Schutz durch robots.txt) • Indizierung wertet Daten aus (Volltext, Verschlagwortung (Meta-Tags), Wort-Statistiken, Bild & Video) • Verwaltung und Aufbereitung • Einfache Abfrage (und, oder), Profisuche (Boolsche Operatoren) • Rankingskriterien • Ausgabe
Würmer, Spinnen und Kriecher- Meta-Tags - II • Anweisungen über Meta-Tags: • Description (250 Zeichen) und Keywords (1000 Zeichen) • Enthalten zusätzlich: Autor, Erstellungsdatum, Thema... • Erweiterte Tags: Dublin Core Schema (kaum umgesetzt) • 20 % nutzen Meta-Tags (einige zu betrügerischen Zwecken) • Problem: nur etwa 10% enthalten "irgendwie brauchbare" Metadaten. • Für praktische Nutzung durch Internet-Suchmaschinen derzeit keine Basis.
Warum Metasuchmaschinen ? • NEC Forschungsinstitut: Suchdienste greifen auf die 800 Millionen Webseiten nur unzureichend zu. (Princeton-Studie 1998) • Bildet man die Vereinigung aller 11 Suchmaschinen kommt man auf 42%. • Verzerrung bei normalen Suchmaschinen (US) • Meta-Suchmaschinen (Suchmaschinen, welche die Suchmaschinen absuchen) • Bsp. MetaGer
Vor- und Nachteile • Vorteile: • Breiteres Spektrum: Befragung von Suchmaschinen, Webverzeichnissen und dynamischen Webangeboten (Enzyklopädien, Wörterbücher, Newsgroups)
Vor- und Nachteile • Nachteile: • Ungenau: meist nur Titel und Beschreibung (Zeitgründe) • Oft „getürkte“ Ergebnisse, da viele Suchmaschinen für gute Rankings bezahlen lassen
Kriterien • Parallele Suche (keine all-in-one Forms) • Zeitgleiche Abfrage und Verarbeitung • Ergebnis-Merging • Ergebnisse in einheitlichem Design • Doubletten-Erkennung • Eliminierung mehrfacher Suchergebnisse • Übernahme Kurzbeschreibung • Mehr Informationen aus angeschlossenen Suchmaschinen • mindestens AND und OR Operatoren • Beide logischen Operationen möglich (weitere: near, not) • Searchengine hiding • Filterung spezifischer Merkmale • Möglichkeit vollständige Suche
Ranking • ideal: KOMBINATION Meta-Algorithmen mit Metadaten • real: derzeit keine verwertbare Basis für Metadaten • Weg derzeit: Wortanalysen • aus Dokument-Teilen (MetaGer) • Wortanzahl im Titel, URL und Kurzbeschreibung • Ranking-Kennzahl des Suchdienstes • aus vollständigem Dokument (Level3) • G 1 = Anz.vork.Terme / Ges.zahlTerme • G 2 = 1 - Summe ( Summe ( minTermDistanzen ))/C "je näher die Terme beieinander, desto besser" • G 3 = f ( einzelTermVerteilung ) "je gleichverteilter jeder Einzelterm, desto besser" • G 4 = Anz.versch.Worte / Ges.zahlWorte "Spam-Erkennung" • RANK = Summe ( g i * G i) = 0 .. 1 mit Summe ( g i ) = 1
Alternativen & Weiterentwicklungen • Level3 • Verfahren zur autom. Generierung themenorientierter Suchmaschinen. • Clustering (Turbo10) • Fasst Begriffe nach Bedeutung zusammen (z.B. Salsa -> Tanz, Rezept) • Clustering Engine (Vivisimo) • Durchsucht Suchmaschinen • Gruppiert die Dokumente nach Titel, URLs und Kurzbeschreibung ordnet diese • Zeigt diese hierarchisch an (Explorer-ähnlich) • QuickCheck • Unausgereifte Volltextsuchenweiterentwicklung von MetaGer • MetaGer-Web-Assoziator • Strategie um Unkenntnis der Sucher zu kompensieren
Alternative Cluster – Search – Engine: