210 likes | 321 Views
Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005. Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft. Informationswissenschaft Uni Düsseldorf. Eine der führenden Ausbildungsstätten im Bereich Informationswissenschaft.
E N D
Qualität von Web-SuchmaschinenSearch Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft
Informationswissenschaft Uni Düsseldorf • Eine der führenden Ausbildungsstätten im Bereich Informationswissenschaft. • Einzigartiger Studiengang „Informationswissenschaft und Sprachtechnologie“ (B.A./M.A.) • Elemente aus Informationswissenschaft, Sprachwissenschaft, Informatik • Praktika im Verlauf des Studiums • Forschung der Abteilung Informationswissenschaft u.a.: • Web Information Retrieval • Suchmaschinen-Marketing
Ziel des Vortrags • Darstellung der Qualität von Suchmaschinen aus „neutraler Sicht“. • Kurzer Überblick über aktuelle Forschungsergebnisse.
Inhalt • Qualität der Treffer • Qualität der Datenbestände • Qualität der Suchfunktionen • Fazit
Retrievaltests • Qualität von Suchmaschinen wird anhand von Testanfragen gemessen. • Errechnet wird die erreichte Präzision = Anteil der relevanten Treffer bis zu einem bestimmten Cut-Off-Wert. • Beispiel: • 50 zufällig ausgewählte Suchanfragen • berücksichtigt werden die ersten 20 Treffer • Jeder Treffer wird bewertet: für die Suchanfrage passend oder nicht?
Retrievaltests: Ergebnisse • Alle Suchmaschinen schneiden schlecht ab: Präzision <0,6. D.h. nur max. 6 von 10 Treffern sind relevant. • Andersherum: Mindestens 4 von 10 Treffern sind irrelevant. • Die Suchmaschinen liegen nahe beieinander; Bestätigung durch Kurztests und eigene Erfahrungen. • Testberichte in Publikumszeitschriften genügen i.d.R. nicht den Ansprüchen an Retrievaltests.
Abdeckung des deutschen Web • Größe des deutschen Web ca. 4 Mio. Domains mit ca. 320 Mio. Seiten. • Abdeckung durch Suchmaschinen zwischen <50 Prozent und etwa 60 Prozent. • Bessere Abdeckung als in vergleichbaren älteren Studien; Tendenz aber ähnlich. Quelle: Pothe 2004
Country Bias • Seiten aus unterschiedlichen Ländern werden unterschiedlich häufig und unterschiedlich tief indexiert. • US-Sites werden zu >80 Prozent indexiert; andere teils nur zwischen 40-60 Prozent. • Tiefe der Indexierung: US-Sites ca. 90 Prozent; andere teils <50 Prozent. • Vergleichende Untersuchungen für deutschsprachige Sites liegt noch nicht vor. Quelle: Vaughan u. Thelwall 2004
Index-Aktualität • Aktualität schwankt erheblich. • Keine Komplettaktualisierung alle 30 Tage! • Aktuellster Index: Google, MSN, Yahoo. • Oft keine klaren Intervalle erkennbar. Quelle: Informationswissenschaft Uni Düsseldorf, laufende Untersuchung
Suchfunktionen • Umfang der Suchmöglichkeiten variiert erheblich. • Alle großen Suchmaschinen bieten gewisse Kernfunktionen, z.B.: • Beschränkung auf Titel • Sprachauswahl • Datumsbeschränkung • Dateiformate • Es hat sich bisher keine einheitliche Abfragesprache herausgebildet. Quelle: Lewandowski 2004a
Recherchefunktion: Datumsbeschränkung • Suchmaschinen können nur schwer erkennen, wie aktuell eine Seite ist. • Die Funktion „Datumsbeschränkung“ ordnet nur 4-6 von zehn Dokumente richtig zu. • Am besten schneidet hier Google ab, danach Yahoo. • Datumsbeschränkung bei Teoma / Ask Jeeves lohnt sich nicht. Quelle: Lewandowski 2004b
Fazit • Suchmaschinen sind (noch) nicht perfekt. • Suchmaschinen erfassen oft nur einen Teil von Websites. • Textanzeigen haben weiterhin Bedeutung, auch wenn die Homepage gut gerankt ist. • Für kurzfristige Kampagnen sollte man sich nicht auf die Indexierung durch Suchmaschinen verlassen.
Vielen Dank. www.durchdenken.de/lewandowski dirk.lewandowski@uni-duesseldorf.de
Quellen • Griesbaum, J. (2004): Evaluation of three German search engines: Altavista.de, Google.de and Lycos.de. Information Research 9(4) paper 189. http://informationr.net/ir/9-4/paper189.html • Lewandowski, D. (2004a): Abfragesprachen und erweiterte Funktionen von WWW-Suchmaschinen. IWP - Information: Wissenschaft und Praxis 55(2), 97-102 (2004). http://www.durchdenken.de/lewandowski/doc/suchmaschinen-funktionen.php • Lewandowski, D. (2004b): Date-restricted queries in web search engines. Online Information Review 28(2004)6, 420-427. http://www.durchdenken.de/lewandowski/doc/oir2004.php • Vaughan, L.; Thelwall, M. (2004): Search Engine Coverage Bias: Evidence and Possible Causes. In: Information Processing & Management, 40(4), 693-707 • Pothe, A. (2004): Nachgezählt: Wie groß ist das WWW? c‘t 26/2004, 164-165