1 / 24

WEDT Web Spam (SEO)

WEDT Web Spam (SEO). Wykład 11 Piotr Gawrysiak pgawrysiak@supermedia.pl. 2007. PageRank cd. PageRank to nie jest „srebrna kula”  PR mierzy „ogólną” jakość strony a zatem nie nadaje się do oceny jakości w przypadku specyficznych tematów wyszukiwania PR jest stosunkowo łatwo oszukać

Download Presentation

WEDT Web Spam (SEO)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WEDTWeb Spam (SEO) Wykład 11 Piotr Gawrysiak pgawrysiak@supermedia.pl 2007

  2. PageRank cd. PageRank to nie jest „srebrna kula” • PR mierzy „ogólną” jakość strony a zatem nie nadaje się do oceny jakości w przypadku specyficznych tematów wyszukiwania • PR jest stosunkowo łatwo oszukać • Istnieją inne algorytmy analizujące strukturę grafu WWW • HITS • Hilltop • Topic Specific/Sensitive Page Rank (TSPR) • ... największy problem

  3. Hilltop • http://www.cs.toronto.edu/~georgem/hilltop/ • Bharat, Mihaila, 2001 • Pomysł: wyszukując informacje należy oprzeć się na wiedzy ekspertów – albo przynajmniej na stronach przygotowanych przez ekspertów • Zbiór stron typu hub, traktowanych jako indeksy „eksperckie”: • Około (~ 5%) całego WWW • Duża liczba hiperpołączeń wychodzących (> wartości granicznej) do niepowiązanych ze sobą stron • Strony niepowiązane to takie, których autorzy pochodzą z niepowiązanych ze sobą organizacji • Dla zapytania • Obliczana jest wartość Expert score dla każdej strony „eksperckiej” • W zależności od liczby hiperpołączeń na stronie pasujących do zapytania • Brane pod uwagę są także strony, mogące składać się z wielu sekcji • Wybieranych jest N najlepszych stron „eksperckich” • Analizowane są strony, na które wskazują hiperpołączenia ze stron eksperckich i wybierane są z nich najlepsze (najczęściej „cytowane”) strony wynikowe

  4. Hilltop

  5. TopicSpecific Page Rank • Zamiast mierzyć generyczną „jakość” strony, można próbować mierzyć jakość w odniesieniu do określonego tematu? • Np. zdrowie, technika, rozrywka • Można zmienić random surfer model • Gdy random surfer się nudzi, wybiera przypadkową stronę • Może wybierać stronę jedynie ze zbioru stron S, związanych z danym tematem • Zbiór S może zostać utworzony np. jako część katalogu sieciowego takiego jak Open Directory • Obliczenia takie same jak dla PR, inny sposób inicjalizacji • Nie skaluje się w prosty sposób

  6. TopicSpecific Page Rank Eksperymenty - Haveliwala, 2002 (WWW20002 conf. – www2002.org) • 16 tematów • zbiory S wg. kategorii DMOZ • np.: arts, business, sports,… • Testy na ochotnikach • 35 pytań testowych • Wyniki sortowane wg. Page Rank i TSPR najbardziej zbliżonej do zapytania kategorii • np.: dla zapytania „bicycling” zbiór S ustalany na „sports” • W większości wypadków TSPR okazywał się lepszy Jak stosować? • Metoda naiwna – użytkownik wybiera kategorię z menu... • lepiej – wykorzystać kontekst zapytania: • klasyfikator przypisujący zapytanie do zbioru kategorii • historia poprzednich zapytań • tematyka strony którą przeglądał użytkownik • lub „kontekst użytkownika”– zakładki, historię poprzednich zapytań, itd. • Powyższe jest przyczyną dla której wyszukiwarki starają się zbierać jak najwięcej informacji o naszych poczynaniach w sieci (Google Personalized Home, My Yahoo itd.)

  7. Search engine optimization • Wyszukiwarki internetowe są najważniejszym narzędziem nawigacyjnym w WWW • Strona, której nie można znaleźć w wyszukiwarkach w zasadzie nie istnieje z praktycznego punktu widzenia • W wyszukiwarce warto być na początku listy wyników, dla dowolnego zapytania • A nuż ktoś kliknie? Kliknięcia użytkowników mogą przynosić wymierne zyski: • reklama internetowa – często płatna „per view” • Strony e-commerce – a nuż jak kliknął to i coś kupi? • Strony „dystrybuujące” malware • Zwiększenie popularności strony / domeny – a nuż ktoś od nas ją odkupi...

  8. Search engine optimization • Większość powyższych celów wymaga przyciągnięcia użytkownika na stronę, pomimo jej znikomej użyteczności dla użytkownika – podczas gdy wyszukiwarki optymalizują wyniki wyszukiwania według użyteczności • A zatem konieczna jest sztuczna manipulacja wynikami wyszukiwania – „oszukanie” algorytmów budujących listę wyników • Zreszta czy wyszukiwarkom komercyjnym można wierzyć? Stąd projekty takie jak Nutch…

  9. SEO = SPAM? • Manipulowanie wynikami działania wyszukiwarek jest działalnością niepożądaną dla użytkowników WWW – podobnie jak rozsyłanie niechcianych wiadomości email • A zatem można pokusić się o mówienie o Web Spam – stronach WWW, których jedynym powodem istnienia jest wpływanie na działanie algorytmów wyszukiwarek • Oczywiście wiele osób może się tutaj nie zgodzić. Należy pamiętać, iż istnieje już cały przemysł SEO – Search Engine Optimization • Udział stron typu spam w całej sieci WWW to obecnie około 10-15%

  10. Techniki „webspamowe” Zwiększanie ważności stron (boosting) • Techniki mające na celu sztuczne zawyżanie istotności strony dla danych wyszukiwarek. • Istotność zawyżona – niezgodna z subiektywną oceną dokonywaną przez większość użytkowników WWW. • Teoretycznie można sobie zatem wyobrazić etyczne zastosowania boostingu – do poprawienia błędów w algorytmach wyszukiwarek  Ukrywanie (hiding) • Techniki mające na celu zamaskowanie faktu wykorzystywania boostingu • Ukrywanie przez ludźmi • Ukrywanie przed robotami sieciowymi Gyongyi & Garcia-Molina, 2004

  11. Techniki „webspamowe” cd. Boosting • Term spamming Generowanie treści strony WWW tak, aby znalazła się w wyniku wyszukiwania dla wielu zapytań Generowana treść jest zwykle sztuczna – tj. zawartość strony nie ma wartości (informacyjnej) dla człowieka Wynikiem jest pojedyncza strona WWW (lub nawet kod HTML wysyłany jedynie na żądanie robota sieciowego) • Link spamming Wykorzystanie algorytmów analizy struktury hiperpołączeń tak, aby zwiększyć istotność danej strony Wymaga stworzenia struktury wielu stron, często na różnych serwerach

  12. Term Spamming Repetition • Powtarzanie jednego lub kilku słów kluczowych • Celem jest zaburzenie działania algorytmów skalowania atrybutów takich jak TF/IDF • Np. „viagra viagra viagra viagra”-> 9120000 wyników w Google (rok temu było 12800000, dwa lata temu 77300)  Dumping • Umieszczanie w treści strony bardzo dużej liczby niepowiązanych semantycznie słów • Np. można kopiować całe słowniki, lub części słowników • Można też stosować metody generacji tekstu 

  13. Term Spamming Weaving Kopiowanie treści innych stron WWW i wstawianie do środka słów „spamowych” Phrase Stitching Sklejanie zdań i fragmentów tekstu z różnych źródeł (głównie innych stron WWW, ale także wyników wyszukiwania np. z Google) Generowane są być przede wszystkim te elementy strony, które są traktowane jako szczególnie cenne przy ustalaniu tematyki strony, a zatem: • tytuł (<TITLE></TITLE>) • Forma URL • Meta tags • Tekst odwołaniach hiperlinków • ...

  14. Link spamming Dla spammera sieć WWW dzieli się na trzy części: • Strony niedostępne – nie ma możliwości zmiany ich zawartości • Strony dostępne – można częściowo wpływać na ich zawartość np. • komentarze w blogach, fora dyskusyjne, itp. • można umieszczać tam odnośniki do stron własnych • Strony własne – można całkowicie kontrolować ich zawartość • mogą znajdować się w kilku (nastu, dziesięciu) różnych domenach • to może być system współdzielony (np. linkor.pl itp.)

  15. Internet (strony niedostępne) Strona s Strony własne Strony dostępne Link Farm Celem spammera jest zwiększenie istotności strony s, obliczanej zwykle algorytmem typu PageRank Należy zatem posiąść możliwie wiele stron i hiperpołączeń, odwołujących się do strony s – tworzenie bezpośrednich połaczeń jest jednak żmudne i nieefektywne Przyspieszenie – Link Farm

  16. Link Farm cd. Czy to może dać jakiś efekt? Niech: x – przyrost PageRank od stron dostępnych y – PageRank strony s PageRank każdej strony z LinkFarm = ε/n+(1- ε)(y/M) y = ε/n + x + (1- ε)(M*(ε/n+(1- ε)(y/M))) y = x *(1/ ε(2- ε)) + (M/n)((ε-1)/(ε-2)) ε zwykle około 0.2 zatem otrzymujemy y≈2.78*x+0.45 (M/n) to oczywiście znaczne uproszczenie

  17. Internet (strony niedostępne) Strona s Strony własne Strony dostępne Link Farm cd. y≈2.78*x+0.45 (M/n) Osiągamy • Zwielokrotnienie wartości PageRank „wpływającego” ze stron dostępnych • Zwiększając liczbę stron własnych możemy dowolnie zwiększać wartość PageRank strony s – (z tym że stron tych musi być rzeczywiście dużo)

  18. Ukrywanie • Techniki Web Spamming są aktywnie zwalczane przez firmy obsługujące największe wyszukiwarki • Nie są to także techniki zbyt dobre z punktu widzenia public relations  • Niezbędne jest zatem ukrycie mechanizmów spamowych: • Content hiding • Ukrywanie treści przed człowiekiem • Najczęściej wykorzystywana technika – użycie tych samych kolorów tła i tekstu • Cloaking • Rozpoznawanie rodzaju dostępu do strony (robot / człowiek) • Inna treść przesyłana jest do przeglądarek WWW a inna do robotów sieciowych • Przekierowania • Alternatywna metoda typu „cloaking” • Przekierowania są zwykle obsługiwane przez przeglądarki a nie przez roboty sieciowe

  19. Wykrywanie webspamu • Term spamming • Jest to zadanie b. podobne do wykrywania klasycznego (tj. pocztowego) spamu, mogą tu mieć zatem zastosowanie podobne techniki np. • Analiza tekstu przy wykorzystaniu algorytmów klasyfikacji • Heurystyki wykrywające „dziwne” wykorzystanie tagów HTML • Wykrywanie stron podobnych do siebie (near duplicates) • ... • Link spamming • Tu jest trudniej, jak na razie nie wymyślono rzeczywiście skutecznych metod • Wpływa bezpośrednio na działanie rankingu wyszukiwarek – a zatem potencjalnie • Przykład metody – Trust Rank

  20. TrustRank Pomysł: wyizolować ze wszystkich stron WWW tylko strony „dobre” • Zwykle strony „dobre” nie posiadają połączeń do stron „złych” – czyli stron webspamu • Wybierana jest (mała) próbka stron WWW • Strony są ręcznie (dlatego próbka musi być mała) klasyfikowane – spam / nie spamTe które nie są stronami webspam tworzą zbiór stron wiarygodnych (trusted pages)Każda strona wiarygodna otrzymuje wartość wiarygodności (trust) równą 1 • Wiarygodności propagowane są przez sieć hiperlinków (każda strona będzie mieć wartość trust pomiędzy 0 a 1) • Strony o wiarygodności niższej niż pewna wartość graniczna uznawane są za webspam

  21. Propagacja wiarygodności • Wygasanie wiarygodności • Wiarygodność przekazywana od danej strony zmniejsza się wraz z odległością od tej strony • Podział wiarygodności • Im większa liczba hiperpołączeń wychodzących ze strony, tym większe prawdopodobieństwo iż „zakradnie się” pomiędzy nie połączenie do strony złej • Wartość wiarygodności jest zatem dzielona pomiędzy wszystkie strony wychodzące • Np. • załóżmy iż każda ze stron wychodzących od strony p, o wiarygodności t(p), otrzyma wartość wiarygodności bt(p)/outdegree(p), 0<b<1 • załóżmy także, iż wiarygodność jest addytywna • Główny problem – wybór odpowiedniego zbioru początkowego „wiarygodnych” stron

  22. Wybór zbioru wiarygodnych stron • Każda z wybieranych stron musi być oceniona przez eksperta – a zatem lepiej by zbiór początkowy był jak najmniejszy • Każda istniejąca „dobra” strona powinna otrzymać odpowiednio wysoką wartość wiarygodności, a zatem ścieżka hiperpołączeń prowadząca do niej ze stron w zbiorze początkowym powinna być jak najkrótsza • Powyższe dwa założenia są cokolwiek sprzeczne...

  23. Wybór zbioru wiarygodnych stron • Typowe rozwiązania: • PageRank • Wybieramy k stron o najwyższej wartości PageRank (mamy nadzieję, iż będzie wśród nich najwięcej wartościowych stron) • Inverse PageRank • Wybieramy strony o największej liczbie wychodzących hiperpołączeń • ...Oraz takie które mają hiperpołączenia wychodzące do stron z dużą liczbą hiperpołączeń wychodzących (rekurencja) • To można obliczyć w podobny sposób jak PageRank, zmieniając jedynie kierunek każdej krawędzi w grafie WWW • Wybieramy k stron o najwyższej wartości Inverse Page Rank

  24. Do poczytania Najważniejsza konferencja dot. WWW WorldWideWeb Conference  • www2002.org • www2003.org • www2004.org • itd.

More Related