200 likes | 300 Views
Közösségi spammelés felismerése és eliminálása. Kivonat – Pletser József. Közösségi mézesmadzagok Profilok statisztikai analízise Közösségi spammerek a Twitteren és a MySpace-en . Mézesmadzag alapú felderítő rendszerek Statisztika a spammerekről. Absztrakt.
E N D
Közösségi spammelés felismerése és eliminálása Kivonat – Pletser József
Közösségi mézesmadzagok • Profilok statisztikai analízise • Közösségi spammerek a Twitteren és a MySpace-en. • Mézesmadzag alapú felderítő rendszerek • Statisztika a spammerekről Absztrakt
Az internethasználók több időt töltenek közösségi oldalakon • A cégeknek máshol kell megtalálni a célközönségüket • Közösségi média rendszerek függenek a felhasználóktól • Spammerek azonosíthatók viselkedésük és profilképük alapján Bevezetés
500 millió felhasználó • 14 millió közösségi oldal különféle témákban • Videó, fénykép, és oldalmegosztás • Felhasználói kultúra • A cikk írásakor a legnépszerűbb oldalnak 500000 rajongója volt Facebook
Felhasználók 80%-a kapott kéretlen ismerős felkérést • Óvatlan felhasználók kiadják az adataikat • Nem feltétlenül csak reklámozás céljából spammelnek • Felderítésükhöz HIL adatbővítés szükséges • Mindig visszajönnek Szomorú tények
Emberi interakció nélkül • Közösségi oldalak spamprofiljainak a begyűjtésére • Statisztikai felhasználói modell fejlesztése • Nulla napos spammerek kiszűrése Mézesmadzag alapú felderítés
Kép hisztogramja alapján (illetve emberi logika alapján) • Szövegek alapján (URL a szövegben, kulcsszavak) • Felhasználói profilok alapján (spammer profilok jellemzői – kevés ismerős) Jellemzők kinyerése
A közösségi spam felismerési probléma megállapítani egy c osztályozó egységen keresztül, hogy melyik ui a spammer, úgy, hogy pi adott. Egy osztályozó • c: ui {spammer, törvényes felhasználó} • halmazba képző függvény, megállapítja, hogy uispammer, vagy sem. • C-hez szükség van különböző jellemzőket tartalmazó halmazra. • F= {f1, f2, … , fm}, mely U elemeire hivatkozik. A probléma meghatározása
A profilok spammelő viselkedése különböző jól elkülöníthető mintákra épülnek. • A legnépszerűbb spammelési célpontok a középnyugati állapok, és a legtöbb spam profil Californiában lakik. • A spammer profilok 57.2%-a egy másik profilról másolta a „Rólam” részt. • Sok spam profil megkülönböztethető demográfiai jellemzőket alakítottak ki (pl. kor, kapcsolat, stb.) MySpace megfigyelések
Clicktraps • FriendInfiltrators • Pornographicstorytellers • JapanesePillpushers • Winnies Spammer profilok statisztikái
Duplicatespammers • Pornographicspammers • Promoters • Phisers • Friendinfiltrators Twitter megfigyelések
Research Study 2 A spammerek azonnali kiküszöbölése
A kivehető spammelésre utaló jelek a begyűjtött spammer profilokból használhatóak-e arra, hogy automatikusan megkülönböztethessük a spammereketa törvényes felhasználóktól. • Ha biztos mintáink vannak (ahogy a megfigyelések az előző fejezetben kimutattak bizonyos mintákat), akkor az osztályozó egység megfigyelhet jeleket, amik alapján megjósolhatunk egy új spamet Probléma megfogalmazása
Felhasználói demográfia: kor, nem, lakóhely és egyéb a felhasználót jellemző információk • A felhasználó által megosztott információk: például a „Rólam” mező, blog bejegyzések, kommentek. • Felhasználói aktivitás jellemzői: Posztolási gyakoriság, csirip gyakoriság • Felhasználói kapcsolatok: barátok száma, követők, illetve követett személyek. Osztályozó egység megközelítése és metrikája
104 törvényes felhasználó • 168 spammer (spammer és hirdető) • Minden felhasználó adata • Cél: a felhasználó törvényes, spammer, vagy hirdető? Twitterspammerek osztályozása
Követők és a követettek átlaga, és a kétirányú barátságok (követettek ∩ követők) / követettek • Csiripek és az azokból levonható tanulságok: • A linkek számának aránya • A különböző linkek száma • A @<felhasználónév> kifejezések aránya • Az egyedi @<felhasználónév> kifejezések aránya Támpontok a Twitteren
A spammereknek saját taktikáik vannak • Azonosításuk nem lehetetlen • Profilok alapján beskatulyázhatóak • Különböző jellemzők segítenek. Összegzés