360 likes | 504 Views
Web Spam: manipulált tartalom a Világhálón. Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport. Miről lesz szó. Web spam: gép megtévesztése. Web Spam és E-mail Spam.
E N D
Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport
Web Spam és E-mail Spam • Cél nem (feltétlenül) a végfelhasználó Pl. Javítsuk a Google pozícióját egy „ügyfél” oldalának • Szűrés nem a kliensnél Keresőrendszer központilag szűr Nem lehet letölteni és tesztelni a spam szűrőt • Spammer dolga nehezebb Eredmény megjelenése lassú folyamat (Robot megtalálja, index frissül)
A spammer célpontja a Google • Kereső top találat forgalmat, bevételt jelent • Manipuláció, “Search Engine Optimization” • Tartalom spam Kulcsszavak, népszerű kifejezések, elírások • Link spam „Farmok”: sűrűn linkelt, redirect-elt site-ok • Bevétel gyakran indirekt • „Affiliate” programok, Google AdSense • Reklámok megjelenítése, forgalom továbbterelése
A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg
Keresési találati pozíció hatása Találati pozíció nézésével töltött idő „spam industry had a revenue potential of$4.5 billion in year 2004if they had been able tocompletely fool allsearch engines on allcommercially viablequeries” Találathoz érkezés ideje [Amitay 2004] [Granka,Joachims,Gay 2004]
A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg • Jó rangsor – Search Engine Optimization célpontja • Mitől függ a rangsor? • Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva • Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb! • URL hossza, könyvtárszint mélysége • Rámutató hivatkozások száma, PageRank
Web spam • Spam szűrés nélkül egy keresőrendszer ma csak spamet találna
Web Spam Taxonómia 1. Tartalom spam
Kulcsszó értéke Google AdWords Competition 10k 10th wedding anniversary 128mb, 1950s, … abc, abercrombie, … b2b, baby, bad credit, … digital camera earn big money, easy, … f1, family, flower, fantasy gameboy, gates, girl, … hair, harry potter, … ibiza, import car, … james bond, janet jackson karate, konica, kostenlose ladies, lesbian, lingerie, … …
Tartalom modellezés példa Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]
Spammelt rangsor-elemek • Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima.co.uk buy-canon-rebel-20d-lens-case.camerasx.com • Anchor szöveg (title, H1, stb) <a href=“target.html”>free, great deals, cheap, inexpensive, cheap, free</a> • Meta keywords – nem érdemes <meta name="keywords" content="UK Swingers, UK, swingers, swinging, genuine, adult contacts, connect4fun, sex,… >
Parkoló domén <div style="position:absolute; top:20px; width:600px; height:90px; overflow:hidden;"><font size=-1>atangledweb.co.uk currently offline<br>atangledweb.co.uk back soon<br></font><br><br><a href="http://www.atangledweb.co.uk"><font size=-1>atangledweb.co.uk</font></a><br><br><br>Soundbridge HomeMusic WiFi Media Play<a class=l href="http://www.atangledweb.co.uk/index01.html">-</a>>... SanDisk Sansa e250 - 2GB MP3 Player -<a class=l href="http://www.atangledweb.co.uk/index02.html">-</a>>... AIGO F820+ 1GB Beach inspired MP3 Pla<a class=l href="http://www.atangledweb.co.uk/index03.html">-</a>>... Targus I-Pod Mini Sound Enhancer<a class=l href="http://www.atangledweb.co.uk/index04.html">-</a>>... Sony NWA806FP.CE7 4GB video WALKMAN <a class=l href="http://www.atangledweb.co.uk/index05.html">-</a>>... Ministry of Sound 512MB MP3 player<a class=l href="http://www.mp3roze.co.uk/cat7000.html">-</a>>... Nokia 6125 - Fold Design - 1.3 Megapi<a class=l href="http://www.mp3roze.co.uk/cat7001.html">-</a>>... Samsung E350 - Camera Phone With Flas<a class=l
Web Spam Taxonómia 2. Hivatkozás spam
Hivatkozások: A Jó, a Rossz és a Csúf “hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99) • Becsületes, emberi ajánlást tartalmazó hivatkozás • Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció … • Szándékos, manipulatív link spam
Link farmok W W W • Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata • Parkoló domén régi hivatkozása • Blog, vendégkönyv spam
Link farmok Mézesmadzag: keresett tartalom 411amusement.com 411 sites A-Z list 411fashion.com 411 sites A-Z list 411zoos.com 411 sites A-Z list target Sok domén, sőt, sok IP
PageRank támogatók eloszlása ρ=0.61 ρ=0.97 alacsony magas PageRank alacsony magas PageRank Becsületes: fhh.hamburg.de Spam: radiopr.bildflirt.de (www.popdata.de farm része) [Benczúr,Csalogány,Sarlós,Uher 2005]
Web Spam Taxonómia 3. Rejtőzködés
Formázás • Egy-pixeles kép • Fehér alapon fehér • Stylesheet határozza meg a színt, elhelyezést • … Elv: robot HTML feldolgozó kódja egyszerűsített
JavaScript alkalmazása <SCRIPT language=javascript> var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location="http://umlander.info/ mega/free software downloads.html"; </SCRIPT> • window.location elemen keresztüli átirányítás • eval: véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link) • document.write
HTTP szintű rejtőzködés • User agent, kliens host szerint • Más tartalom a felhasználónak, más a GoogleBot-nak
Web Spam Taxonómia 4. Közösségi tartalom spam
Jellemzők • Szóelőfordulások (szózsák modell) • TrustRank: becsületes oldalakból induló PageRank • Ki- és be-linkek száma, kölcsönösség • Szavak száma, hossza, HTML elemek (title, anchor) közötti eloszlása • Sikeresség népszerű kulcsszavakra spamszűrés nélküli teszt keresőrendszerben • Google hirdetések száma • Site felépítése, mélysége, belső hivatkozás-szerkezete, dok formátumok, …
Gráf-simítás: „know your neighbor” ? • Becsületes oldal ritkán mutat spamre • Spamre sok más spam hivatkozik • Spamség jóslat p(v) minden oldalra • Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u) • Újraklasszifikáció az új jellemzővel v7 v1 v2 u
A Web Spam Challenge • UK-WEBSPAM2006 (Yahoo Research, 2007-ben) • 9000 Web site, 500,000 hivatkozás • 767 spam, 7472 becsületes • UK-WEBSPAM2007 (verseny most) • 114,000 Web site, 3 Md hivatkozás • 222 spam, 3776 becsületes • Teljes letöltés 3 TByte • UK-WEBSPAM2008? Mi szervezzük? • Internet Archívummal együttműködve, időben folyamatos letöltés • Cél: spam időbeliségének, mozgásának vizsgálata
Adatbányászat és Keresés Kutatócsoport Rónyai Lajos Informatika Labor vezető Benczúr András Kutatás-Fejlesztés 3 posztdoktor 8 doktorandusz 5 fejlesztő Lukács András Kutatás, Ipari kapcsolatok
Adatbányászat és Keresés Kutatócsoport • Egyedi technológiák extrém adatméretekre • (web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés • viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű webszerver naplók hosszú időtartamú elemzése • lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok • ajánló rendszerek KDD Cup első helyezés
Köszönöm a figyelmet! Pereszlényi Attila datamining.sztaki.hu/ peresz@ilab.sztaki.hu