250 likes | 355 Views
Nyelv-alapú email spam-szűrők. Boha Roland 2005. november 24. http://digitus.itk.ppke.hu/~rollair/spam/. Mi is a spam?.
E N D
Nyelv-alapú email spam-szűrők Boha Roland 2005. november 24. http://digitus.itk.ppke.hu/~rollair/spam/ Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Mi is a spam? A spam kéretlen (pl.: cím publikus helyről), nagy példányszámban elküldött (10-től…), azonos tartalmú (részletekben különbözhet) elektronikus üzenet. Szó szerinti jelentése: löncshús konzerv, amely az elnevezés alapjául szolgáló Monthy Python burleszkben szerepelt. Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Mi a baj a spam-mel? • A spam nem ingyenes • A spam tönkreteheti az internetes kommunikációt • A küldött spam-ek száma exponenciálisan nő. Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Spamtörténelem • 1978. május 3. - „DEC spam” (Igen, a számítógéptípus…) • 1988. május 24. - Rob Noha: anyagi támogatás tanulmányai finanszírozására (hírcsoportok voltak a cél) • Dave Rhodes – Első klasszikus kéretlen levél: „Gazdagodj meg gyorsan!” (lánclevél) Boha Roland - Kéretlen levelek PPKE-ITK (2005)
ARMM spam – hibás program, közel 200 üzenetet küldött véletlenül egy hírcsoportba (innentől spam a kéretlen levél) • 1994. január 18. - Az első „ütős” spam: vallásos jellegű üzenet • 1994. április - Canter & Siegel: „Zöldkártya” – vállalták, megbuktak Boha Roland - Kéretlen levelek PPKE-ITK (2005)
A spam napjainkban • Számos vírus is „keveredik” az ilyen levelekbe • Spamzombik • A teljes email forgalom 50-60 százalékát teszi ki • „A spam 2003-ban világszerte 20,5 milliárd dolláros kárt okozott” Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Hogyan működik a levelezés az Interneten? • Az RFC822 írja le a levél fejrész formátumát, az RFC821 pedig az SMTP protokollt. (A két szabályhalmaz mint elektronikus boríték működik.) • A két partner kölcsönösen "bemutatkozik" • >>HELO<< után hamis adat is lehet, IP alapú név számít • „MAIL FROM:„ - feladó "RCPT TO:" – címzett (utóbbiból bármennyi lehet) • Fejléc elemek: Date; From; To; Sender; Reply-to; Subject; Received Boha Roland - Kéretlen levelek PPKE-ITK (2005)
220 helka.iif.hu IC 122 PP 122 Here - Pleased to meet you HELO HUGBOX.SZTAKI.HU 250 helka.iif.hu: HUGBOX.SZTAKI.HU looks good to me MAIL FROM:<35673576@usa.net> 250 OK RCPT TO:<h12184sch@ella.hu> 250 Recipient OK. DATA 354 Enter Mail, end by a line with only '.' Received: from tas.vain.hu by HUGBOX.SZTAKI.HU (MX V4.1 VAX) with SMTP; Mon, 29 Sep 1997 23:44:26 gmt+1 Received: from mos.vain.hu (root@mos.vain.hu [193.6.32.110]) by tas.vain.hu (8.8.5/8.8.5) with SMTP id BAA29005 for <h12184sch@ella.hu>; Tue, 30 Sep 1997 01:43:54 +0200 Received: from csrlink.net (sallybrown.csrlink.net) by mos.vain.hu (5.x/SMI-SVR4) id AA15758; Mon, 29 Sep 1997 22:43:39 +0100 Received: from 206.228.89.2 (ad68-104.compuserve.com [199.174.195.104]) by csrlink.net (8.8.5/8.8.5) with SMTP id RAA11806; Mon, 29 Sep 1997 17:32:12 -0500 (EST) Date: Mon, 29 Sep 97 16:38:23 EST To: Friend@public.com From: 35673576@usa.net Subject: Let's talk dirty. Message-ID: <> LAUNDRY!!! $20,000,000 (Million) IN SALES In Just (5) Months!!! HELP......WE NEED MORE DEALERS!! Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Mit tesznek a spam ellen? • Öngyógyítás? Emberi eredet… • Opt-in: felhasználó beleegyezésével; Opt-out: lehetőséget kell adni a leiratkozásra • Smith-féle törvénytervezet: reklámfax alapján pénzbírság • http://www.spamlaws.com Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Mit tegyél, ha levélszemetet kapsz? • Soha ne válaszolj kéretlen emailre! (A „biztos” lista értékes…) • Soha ne kattints kéretlen emailben szereplő linkekre! (áloldalak…) • Soha ne vásárolj kéretlen emailben hirdető forgalmazótól! (Ők is pénzből élnek…) • Soha ne készíts email címlistát! (legalább titkos másolatot küldj…) Boha Roland - Kéretlen levelek PPKE-ITK (2005)
A védekezés módjai • Relay megtiltás • Fekete listák • Valósidejű spam blokkolás (automatizált) • Spam szűrők Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Relay megtiltás:(a szerver-üzemeltető feladata); A legfontosabb, amit a levelező szerverek gazdáinak meg kell tenniük, az annak megakadályozása, hogy a spam küldők ugródeszkának használhassák rendszerüket. • Fekete listák: A spamek jelentős része ugyanazokról a címekről érkezik, ha megtiltjuk ezekről a helyekről a levelek érkezését, akkor az ártatlan helynek is segítünk Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Valósidejű spam blokkolás • RBL (Realtime Blackhole List): IP címeket tartalmaz, melyekrõl - közvetve vagy közvetlenül -, spam származik. • ORDB (Open Relay Database) • RSS (Relay Spam Stopper): Mint az RBL, de míg az RBL spam forrásokat, reléket és spammelést támogató rendszereket is tartalmaz, addig ez utóbbiak csak nyílt reléket. Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Spam szűrők – működési elvek • Szűrés a feladó címe alapján (eredet) • Szűrés a levél tartalma, felépítése alapján • Szűrés adatbázisok segítségével • Szűrés (saját) szabályokkal • Egyéb megoldások • Minta és szabálycsere Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Szűrés a feladó címe alapján • Feketelista (Black list) (kézi karbantartás) • Fehérlista (White list) (kézi karbantartás, tájékoztatás) • Szürkelista (Grey list) (tájékoztatás) • RBL (Realtime Blackhole List) (szerverszinten) Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Szűrés a levél tartalma, felépítése alapján • Bayes-szűrő: Bizonyos spam-szűrők a Thomas Bayes matematikus által kidolgozott elméletet használják; valószínűség-számítási elvek segítségével határozzák meg, hogy egy email normális levélnek vagy spamnek számít-e. • Pontozás • Több ezer minta alapján • Tanítható • Tévedhet Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Szűrés adatbázisok segítségével • Egy statisztikai módszer elemzi a beérkező leveleket, részeire bontja azokat • Ez alapján osztályoz • Személyre szabott spam adatbázis (szabályok) • Az adatbázis fokozatosan "megtanulja" az adott környezetben előforduló spam jellemzőket Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Szűrés adatbázisok segítségével II. • Mivel a statisztikai módszerek a levelek sajátosságait tanulják meg, ezért a tanítómintát nagyon gondosan kell összeállítani. • Spam szövegek szórása jóval kisebb, mint a nem spam levelekben lévőké, így spam < nem spam Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Szűrés (saját) szabályokkal • Alapvető dolog: szűrők • A bayes-i rendszerrel kombináltan igazán hatékony • Testreszabhatóság Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Egyéb megoldások • SpamAssasin: 3.x -től az általános algoritmust felváltotta egy neurális hálózat, hiba visszacsatolással (tanítás sem kell hozzá) • A fenti módszerek kombinációi (nagy neveknél mind, vagy több is egy termékben) Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Minta és szabálycsere • Hatékonyság: felismerési és vakriasztási arányból • Változékonyság, adaptivitás • A spam küldője is ember: alkalmazkodik, változtat • A tisztán statisztikai alapú szűrőknél nem kell frissíteni, csak tanítani, tanítani…. Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Most akkor mi van??? Hol bujkál a nyelvtechnológia? • Mintakeresés, heurisztikus módszerek, statisztikai módszerek alapja (szavak, szókapcsolatok relációinál, felismerésüknél) • Bayes-szűrő • Adatbázisok mögött • Szabályok mögött Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Források • http://www.cert.hu/ismert/5spam/spam_uj.html (Pásztor Miklós) • http://spamassassin.apache.org • http://spam.lap.hu • http://www.virushirado.hu/ • http://www.virusbuster.hu/hu/spam/spam_tudnivalok/kutatas Boha Roland - Kéretlen levelek PPKE-ITK (2005)
Köszönöm a figyelmet! Boha Roland - Kéretlen levelek PPKE-ITK (2005)