1 / 36

Web Spam: manipulált tartalom a Világhálón

Web Spam: manipulált tartalom a Világhálón. Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport. Miről lesz szó. Web spam: gép megtévesztése. Web Spam és E-mail Spam.

denise
Download Presentation

Web Spam: manipulált tartalom a Világhálón

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

  2. Miről lesz szó

  3. Web spam: gép megtévesztése

  4. Web Spam és E-mail Spam • Cél nem (feltétlenül) a végfelhasználó Pl. Javítsuk a Google pozícióját egy „ügyfél” oldalának • Szűrés nem a kliensnél Keresőrendszer központilag szűr Nem lehet letölteni és tesztelni a spam szűrőt • Spammer dolga nehezebb Eredmény megjelenése lassú folyamat (Robot megtalálja, index frissül)

  5. A spammer célpontja a Google • Kereső top találat forgalmat, bevételt jelent • Manipuláció, “Search Engine Optimization” • Tartalom spam Kulcsszavak, népszerű kifejezések, elírások • Link spam „Farmok”: sűrűn linkelt, redirect-elt site-ok • Bevétel gyakran indirekt • „Affiliate” programok, Google AdSense • Reklámok megjelenítése, forgalom továbbterelése

  6. A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg

  7. Keresési találati pozíció hatása Találati pozíció nézésével töltött idő „spam industry had a revenue potential of$4.5 billion in year 2004if they had been able tocompletely fool allsearch engines on allcommercially viablequeries” Találathoz érkezés ideje [Amitay 2004] [Granka,Joachims,Gay 2004]

  8. A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg • Jó rangsor – Search Engine Optimization célpontja • Mitől függ a rangsor? • Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva • Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb! • URL hossza, könyvtárszint mélysége • Rámutató hivatkozások száma, PageRank

  9. Web spam • Spam szűrés nélkül egy keresőrendszer ma csak spamet találna

  10. Web Spam Taxonómia 1. Tartalom spam

  11. Kulcsszó értéke Google AdWords Competition 10k 10th wedding anniversary 128mb, 1950s, … abc, abercrombie, … b2b, baby, bad credit, … digital camera earn big money, easy, … f1, family, flower, fantasy gameboy, gates, girl, … hair, harry potter, … ibiza, import car, … james bond, janet jackson karate, konica, kostenlose ladies, lesbian, lingerie, … …

  12. Tartalom modellezés példa Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]

  13. Spammelt rangsor-elemek • Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima.co.uk buy-canon-rebel-20d-lens-case.camerasx.com • Anchor szöveg (title, H1, stb) <a href=“target.html”>free, great deals, cheap, inexpensive, cheap, free</a> • Meta keywords – nem érdemes <meta name="keywords" content="UK Swingers, UK, swingers, swinging, genuine, adult contacts, connect4fun, sex,… >

  14. Parkoló domén <div style="position:absolute; top:20px; width:600px; height:90px; overflow:hidden;"><font size=-1>atangledweb.co.uk currently offline<br>atangledweb.co.uk back soon<br></font><br><br><a href="http://www.atangledweb.co.uk"><font size=-1>atangledweb.co.uk</font></a><br><br><br>Soundbridge HomeMusic WiFi Media Play<a class=l href="http://www.atangledweb.co.uk/index01.html">-</a>>... SanDisk Sansa e250 - 2GB MP3 Player -<a class=l href="http://www.atangledweb.co.uk/index02.html">-</a>>... AIGO F820+ 1GB Beach inspired MP3 Pla<a class=l href="http://www.atangledweb.co.uk/index03.html">-</a>>... Targus I-Pod Mini Sound Enhancer<a class=l href="http://www.atangledweb.co.uk/index04.html">-</a>>... Sony NWA806FP.CE7 4GB video WALKMAN <a class=l href="http://www.atangledweb.co.uk/index05.html">-</a>>... Ministry of Sound 512MB MP3 player<a class=l href="http://www.mp3roze.co.uk/cat7000.html">-</a>>... Nokia 6125 - Fold Design - 1.3 Megapi<a class=l href="http://www.mp3roze.co.uk/cat7001.html">-</a>>... Samsung E350 - Camera Phone With Flas<a class=l

  15. Kulcsszó zsúfolás, másolatok

  16. Google hirdetések

  17. Web Spam Taxonómia 2. Hivatkozás spam

  18. Hivatkozások: A Jó, a Rossz és a Csúf “hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99) • Becsületes, emberi ajánlást tartalmazó hivatkozás • Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció … • Szándékos, manipulatív link spam

  19. Link farmok W W W • Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata • Parkoló domén régi hivatkozása • Blog, vendégkönyv spam

  20. Link farmok Mézesmadzag: keresett tartalom 411amusement.com 411 sites A-Z list 411fashion.com 411 sites A-Z list 411zoos.com 411 sites A-Z list target Sok domén, sőt, sok IP

  21. PageRank támogatók eloszlása ρ=0.61 ρ=0.97 alacsony magas PageRank alacsony magas PageRank Becsületes: fhh.hamburg.de Spam: radiopr.bildflirt.de (www.popdata.de farm része) [Benczúr,Csalogány,Sarlós,Uher 2005]

  22. Web Spam Taxonómia 3. Rejtőzködés

  23. Formázás • Egy-pixeles kép • Fehér alapon fehér • Stylesheet határozza meg a színt, elhelyezést • … Elv: robot HTML feldolgozó kódja egyszerűsített

  24. JavaScript alkalmazása <SCRIPT language=javascript> var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location="http://umlander.info/ mega/free software downloads.html"; </SCRIPT> • window.location elemen keresztüli átirányítás • eval: véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link) • document.write

  25. HTTP szintű rejtőzködés • User agent, kliens host szerint • Más tartalom a felhasználónak, más a GoogleBot-nak

  26. Web Spam Taxonómia 4. Közösségi tartalom spam

  27. Új célpont: vendégkönyvek, blogok

  28. „Fórumnak látszó tárgy”

  29. Spam vadászat

  30. Jellemzők • Szóelőfordulások (szózsák modell) • TrustRank: becsületes oldalakból induló PageRank • Ki- és be-linkek száma, kölcsönösség • Szavak száma, hossza, HTML elemek (title, anchor) közötti eloszlása • Sikeresség népszerű kulcsszavakra spamszűrés nélküli teszt keresőrendszerben • Google hirdetések száma • Site felépítése, mélysége, belső hivatkozás-szerkezete, dok formátumok, …

  31. Gráf-simítás: „know your neighbor” ? • Becsületes oldal ritkán mutat spamre • Spamre sok más spam hivatkozik • Spamség jóslat p(v) minden oldalra • Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u) • Újraklasszifikáció az új jellemzővel v7 v1 v2 u

  32. A Web Spam Challenge • UK-WEBSPAM2006 (Yahoo Research, 2007-ben) • 9000 Web site, 500,000 hivatkozás • 767 spam, 7472 becsületes • UK-WEBSPAM2007 (verseny most) • 114,000 Web site, 3 Md hivatkozás • 222 spam, 3776 becsületes • Teljes letöltés 3 TByte • UK-WEBSPAM2008? Mi szervezzük? • Internet Archívummal együttműködve, időben folyamatos letöltés • Cél: spam időbeliségének, mozgásának vizsgálata

  33. Magunkról

  34. Adatbányászat és Keresés Kutatócsoport Rónyai Lajos Informatika Labor vezető Benczúr András Kutatás-Fejlesztés 3 posztdoktor 8 doktorandusz 5 fejlesztő Lukács András Kutatás, Ipari kapcsolatok

  35. Adatbányászat és Keresés Kutatócsoport • Egyedi technológiák extrém adatméretekre • (web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés • viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű webszerver naplók hosszú időtartamú elemzése • lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok • ajánló rendszerek KDD Cup első helyezés

  36. Köszönöm a figyelmet! Pereszlényi Attila datamining.sztaki.hu/ peresz@ilab.sztaki.hu

More Related