240 likes | 367 Views
WEDT Web Spam (SEO). Wykład 11 Piotr Gawrysiak pgawrysiak@supermedia.pl. 2007. PageRank cd. PageRank to nie jest „srebrna kula” PR mierzy „ogólną” jakość strony a zatem nie nadaje się do oceny jakości w przypadku specyficznych tematów wyszukiwania PR jest stosunkowo łatwo oszukać
E N D
WEDTWeb Spam (SEO) Wykład 11 Piotr Gawrysiak pgawrysiak@supermedia.pl 2007
PageRank cd. PageRank to nie jest „srebrna kula” • PR mierzy „ogólną” jakość strony a zatem nie nadaje się do oceny jakości w przypadku specyficznych tematów wyszukiwania • PR jest stosunkowo łatwo oszukać • Istnieją inne algorytmy analizujące strukturę grafu WWW • HITS • Hilltop • Topic Specific/Sensitive Page Rank (TSPR) • ... największy problem
Hilltop • http://www.cs.toronto.edu/~georgem/hilltop/ • Bharat, Mihaila, 2001 • Pomysł: wyszukując informacje należy oprzeć się na wiedzy ekspertów – albo przynajmniej na stronach przygotowanych przez ekspertów • Zbiór stron typu hub, traktowanych jako indeksy „eksperckie”: • Około (~ 5%) całego WWW • Duża liczba hiperpołączeń wychodzących (> wartości granicznej) do niepowiązanych ze sobą stron • Strony niepowiązane to takie, których autorzy pochodzą z niepowiązanych ze sobą organizacji • Dla zapytania • Obliczana jest wartość Expert score dla każdej strony „eksperckiej” • W zależności od liczby hiperpołączeń na stronie pasujących do zapytania • Brane pod uwagę są także strony, mogące składać się z wielu sekcji • Wybieranych jest N najlepszych stron „eksperckich” • Analizowane są strony, na które wskazują hiperpołączenia ze stron eksperckich i wybierane są z nich najlepsze (najczęściej „cytowane”) strony wynikowe
TopicSpecific Page Rank • Zamiast mierzyć generyczną „jakość” strony, można próbować mierzyć jakość w odniesieniu do określonego tematu? • Np. zdrowie, technika, rozrywka • Można zmienić random surfer model • Gdy random surfer się nudzi, wybiera przypadkową stronę • Może wybierać stronę jedynie ze zbioru stron S, związanych z danym tematem • Zbiór S może zostać utworzony np. jako część katalogu sieciowego takiego jak Open Directory • Obliczenia takie same jak dla PR, inny sposób inicjalizacji • Nie skaluje się w prosty sposób
TopicSpecific Page Rank Eksperymenty - Haveliwala, 2002 (WWW20002 conf. – www2002.org) • 16 tematów • zbiory S wg. kategorii DMOZ • np.: arts, business, sports,… • Testy na ochotnikach • 35 pytań testowych • Wyniki sortowane wg. Page Rank i TSPR najbardziej zbliżonej do zapytania kategorii • np.: dla zapytania „bicycling” zbiór S ustalany na „sports” • W większości wypadków TSPR okazywał się lepszy Jak stosować? • Metoda naiwna – użytkownik wybiera kategorię z menu... • lepiej – wykorzystać kontekst zapytania: • klasyfikator przypisujący zapytanie do zbioru kategorii • historia poprzednich zapytań • tematyka strony którą przeglądał użytkownik • lub „kontekst użytkownika”– zakładki, historię poprzednich zapytań, itd. • Powyższe jest przyczyną dla której wyszukiwarki starają się zbierać jak najwięcej informacji o naszych poczynaniach w sieci (Google Personalized Home, My Yahoo itd.)
Search engine optimization • Wyszukiwarki internetowe są najważniejszym narzędziem nawigacyjnym w WWW • Strona, której nie można znaleźć w wyszukiwarkach w zasadzie nie istnieje z praktycznego punktu widzenia • W wyszukiwarce warto być na początku listy wyników, dla dowolnego zapytania • A nuż ktoś kliknie? Kliknięcia użytkowników mogą przynosić wymierne zyski: • reklama internetowa – często płatna „per view” • Strony e-commerce – a nuż jak kliknął to i coś kupi? • Strony „dystrybuujące” malware • Zwiększenie popularności strony / domeny – a nuż ktoś od nas ją odkupi...
Search engine optimization • Większość powyższych celów wymaga przyciągnięcia użytkownika na stronę, pomimo jej znikomej użyteczności dla użytkownika – podczas gdy wyszukiwarki optymalizują wyniki wyszukiwania według użyteczności • A zatem konieczna jest sztuczna manipulacja wynikami wyszukiwania – „oszukanie” algorytmów budujących listę wyników • Zreszta czy wyszukiwarkom komercyjnym można wierzyć? Stąd projekty takie jak Nutch…
SEO = SPAM? • Manipulowanie wynikami działania wyszukiwarek jest działalnością niepożądaną dla użytkowników WWW – podobnie jak rozsyłanie niechcianych wiadomości email • A zatem można pokusić się o mówienie o Web Spam – stronach WWW, których jedynym powodem istnienia jest wpływanie na działanie algorytmów wyszukiwarek • Oczywiście wiele osób może się tutaj nie zgodzić. Należy pamiętać, iż istnieje już cały przemysł SEO – Search Engine Optimization • Udział stron typu spam w całej sieci WWW to obecnie około 10-15%
Techniki „webspamowe” Zwiększanie ważności stron (boosting) • Techniki mające na celu sztuczne zawyżanie istotności strony dla danych wyszukiwarek. • Istotność zawyżona – niezgodna z subiektywną oceną dokonywaną przez większość użytkowników WWW. • Teoretycznie można sobie zatem wyobrazić etyczne zastosowania boostingu – do poprawienia błędów w algorytmach wyszukiwarek Ukrywanie (hiding) • Techniki mające na celu zamaskowanie faktu wykorzystywania boostingu • Ukrywanie przez ludźmi • Ukrywanie przed robotami sieciowymi Gyongyi & Garcia-Molina, 2004
Techniki „webspamowe” cd. Boosting • Term spamming Generowanie treści strony WWW tak, aby znalazła się w wyniku wyszukiwania dla wielu zapytań Generowana treść jest zwykle sztuczna – tj. zawartość strony nie ma wartości (informacyjnej) dla człowieka Wynikiem jest pojedyncza strona WWW (lub nawet kod HTML wysyłany jedynie na żądanie robota sieciowego) • Link spamming Wykorzystanie algorytmów analizy struktury hiperpołączeń tak, aby zwiększyć istotność danej strony Wymaga stworzenia struktury wielu stron, często na różnych serwerach
Term Spamming Repetition • Powtarzanie jednego lub kilku słów kluczowych • Celem jest zaburzenie działania algorytmów skalowania atrybutów takich jak TF/IDF • Np. „viagra viagra viagra viagra”-> 9120000 wyników w Google (rok temu było 12800000, dwa lata temu 77300) Dumping • Umieszczanie w treści strony bardzo dużej liczby niepowiązanych semantycznie słów • Np. można kopiować całe słowniki, lub części słowników • Można też stosować metody generacji tekstu
Term Spamming Weaving Kopiowanie treści innych stron WWW i wstawianie do środka słów „spamowych” Phrase Stitching Sklejanie zdań i fragmentów tekstu z różnych źródeł (głównie innych stron WWW, ale także wyników wyszukiwania np. z Google) Generowane są być przede wszystkim te elementy strony, które są traktowane jako szczególnie cenne przy ustalaniu tematyki strony, a zatem: • tytuł (<TITLE></TITLE>) • Forma URL • Meta tags • Tekst odwołaniach hiperlinków • ...
Link spamming Dla spammera sieć WWW dzieli się na trzy części: • Strony niedostępne – nie ma możliwości zmiany ich zawartości • Strony dostępne – można częściowo wpływać na ich zawartość np. • komentarze w blogach, fora dyskusyjne, itp. • można umieszczać tam odnośniki do stron własnych • Strony własne – można całkowicie kontrolować ich zawartość • mogą znajdować się w kilku (nastu, dziesięciu) różnych domenach • to może być system współdzielony (np. linkor.pl itp.)
Internet (strony niedostępne) Strona s Strony własne Strony dostępne Link Farm Celem spammera jest zwiększenie istotności strony s, obliczanej zwykle algorytmem typu PageRank Należy zatem posiąść możliwie wiele stron i hiperpołączeń, odwołujących się do strony s – tworzenie bezpośrednich połaczeń jest jednak żmudne i nieefektywne Przyspieszenie – Link Farm
Link Farm cd. Czy to może dać jakiś efekt? Niech: x – przyrost PageRank od stron dostępnych y – PageRank strony s PageRank każdej strony z LinkFarm = ε/n+(1- ε)(y/M) y = ε/n + x + (1- ε)(M*(ε/n+(1- ε)(y/M))) y = x *(1/ ε(2- ε)) + (M/n)((ε-1)/(ε-2)) ε zwykle około 0.2 zatem otrzymujemy y≈2.78*x+0.45 (M/n) to oczywiście znaczne uproszczenie
Internet (strony niedostępne) Strona s Strony własne Strony dostępne Link Farm cd. y≈2.78*x+0.45 (M/n) Osiągamy • Zwielokrotnienie wartości PageRank „wpływającego” ze stron dostępnych • Zwiększając liczbę stron własnych możemy dowolnie zwiększać wartość PageRank strony s – (z tym że stron tych musi być rzeczywiście dużo)
Ukrywanie • Techniki Web Spamming są aktywnie zwalczane przez firmy obsługujące największe wyszukiwarki • Nie są to także techniki zbyt dobre z punktu widzenia public relations • Niezbędne jest zatem ukrycie mechanizmów spamowych: • Content hiding • Ukrywanie treści przed człowiekiem • Najczęściej wykorzystywana technika – użycie tych samych kolorów tła i tekstu • Cloaking • Rozpoznawanie rodzaju dostępu do strony (robot / człowiek) • Inna treść przesyłana jest do przeglądarek WWW a inna do robotów sieciowych • Przekierowania • Alternatywna metoda typu „cloaking” • Przekierowania są zwykle obsługiwane przez przeglądarki a nie przez roboty sieciowe
Wykrywanie webspamu • Term spamming • Jest to zadanie b. podobne do wykrywania klasycznego (tj. pocztowego) spamu, mogą tu mieć zatem zastosowanie podobne techniki np. • Analiza tekstu przy wykorzystaniu algorytmów klasyfikacji • Heurystyki wykrywające „dziwne” wykorzystanie tagów HTML • Wykrywanie stron podobnych do siebie (near duplicates) • ... • Link spamming • Tu jest trudniej, jak na razie nie wymyślono rzeczywiście skutecznych metod • Wpływa bezpośrednio na działanie rankingu wyszukiwarek – a zatem potencjalnie • Przykład metody – Trust Rank
TrustRank Pomysł: wyizolować ze wszystkich stron WWW tylko strony „dobre” • Zwykle strony „dobre” nie posiadają połączeń do stron „złych” – czyli stron webspamu • Wybierana jest (mała) próbka stron WWW • Strony są ręcznie (dlatego próbka musi być mała) klasyfikowane – spam / nie spamTe które nie są stronami webspam tworzą zbiór stron wiarygodnych (trusted pages)Każda strona wiarygodna otrzymuje wartość wiarygodności (trust) równą 1 • Wiarygodności propagowane są przez sieć hiperlinków (każda strona będzie mieć wartość trust pomiędzy 0 a 1) • Strony o wiarygodności niższej niż pewna wartość graniczna uznawane są za webspam
Propagacja wiarygodności • Wygasanie wiarygodności • Wiarygodność przekazywana od danej strony zmniejsza się wraz z odległością od tej strony • Podział wiarygodności • Im większa liczba hiperpołączeń wychodzących ze strony, tym większe prawdopodobieństwo iż „zakradnie się” pomiędzy nie połączenie do strony złej • Wartość wiarygodności jest zatem dzielona pomiędzy wszystkie strony wychodzące • Np. • załóżmy iż każda ze stron wychodzących od strony p, o wiarygodności t(p), otrzyma wartość wiarygodności bt(p)/outdegree(p), 0<b<1 • załóżmy także, iż wiarygodność jest addytywna • Główny problem – wybór odpowiedniego zbioru początkowego „wiarygodnych” stron
Wybór zbioru wiarygodnych stron • Każda z wybieranych stron musi być oceniona przez eksperta – a zatem lepiej by zbiór początkowy był jak najmniejszy • Każda istniejąca „dobra” strona powinna otrzymać odpowiednio wysoką wartość wiarygodności, a zatem ścieżka hiperpołączeń prowadząca do niej ze stron w zbiorze początkowym powinna być jak najkrótsza • Powyższe dwa założenia są cokolwiek sprzeczne...
Wybór zbioru wiarygodnych stron • Typowe rozwiązania: • PageRank • Wybieramy k stron o najwyższej wartości PageRank (mamy nadzieję, iż będzie wśród nich najwięcej wartościowych stron) • Inverse PageRank • Wybieramy strony o największej liczbie wychodzących hiperpołączeń • ...Oraz takie które mają hiperpołączenia wychodzące do stron z dużą liczbą hiperpołączeń wychodzących (rekurencja) • To można obliczyć w podobny sposób jak PageRank, zmieniając jedynie kierunek każdej krawędzi w grafie WWW • Wybieramy k stron o najwyższej wartości Inverse Page Rank
Do poczytania Najważniejsza konferencja dot. WWW WorldWideWeb Conference • www2002.org • www2003.org • www2004.org • itd.