190 likes | 269 Views
SPAM. Présentation IFT6010 Traitement des langues naturelles. Duc-Loc Huynh. Spiced Pork And Meat.
E N D
SPAM Présentation IFT6010 Traitement des langues naturelles Duc-Loc Huynh
Spiced Pork And Meat • Le spam, mot d'origine anglaise, désigne les communications électronique massives, notamment de courrier électronique, sans sollicitation des destinataires, à des fins publicitaires ou malhonnêtes. [fr.wikipedia.org/wiki/Spam] • Aussi connue sous le thermes de: • UCE "unsolicited commercial e-mail" • UBE "unsolicited bulk e-mail" • Gray mail • Junk mail • …
SPAM depuis les années 1970 • Pour la petite histoire, l’expression SPAM vient de la comédie, dès années 1970, a Monty Python, où au restaurant, chaque plat du menu contenait du SPAM et, bien entendu, il n’était pas possible d’en commander sans. La blague fait référence à la seconde guerre mondiale, lorsque tout les autres denrées étaient rationnées, le SPAM était fournis en abondance. Certain associaitl’acronyme SPAM à"sales promotional advertising mail" ou "simultaneously posted advertising message." Monty Python in 1969 (clockwise from top left): Graham Chapman, Eric Idle, Terry Gilliam, Michael Palin, John Cleese and Terry Jones.
Au sommaire • Motivations • Profits • Conférences • Techniques des spammeurs • Trouver des cibles • Outils • Techniques anti spam • Se cacher • Filtrer • Détecter
Motivations • L’écologie • Les spammeurs justifient leur existence en faisant référence à la quantité énorme de courrier postal non sollicité et donc de l’impact environnemental sur les arbres et les ressources naturelles en général. Donc, pour eux, si l’on doit polluer, polluons dans l’espace virtuel et épargnions au moins la planète.
Profits • Une simple équation mathématique!! • Supposez que sur 2000 SPAM envoyés, une personne clique sur un lien, c'est-à-dire que le spammeur vient de ce faire 1$. Donc, si un million de SPAM sont envoyés par jour, le spammeur ce fait aux alentours de 500$! Et cela tend vers un revenu mensuelle de 100 000$ par an. • Un problème social. • Comme les virus, les SPAM se sont propagés dans l’ensemble du réseau Internet, sous la forme de milliers de messages indésirables qui atterrissent dans nos boîtes aux lettres et même dans les groupes de discussions. Et même s’ il n’existe qu’une quantité infime de personnes qui répondent aux SPAM, les spammeurs trouvent leur rentabilité dans le fait que pour atteindre la boîte électronique des gens, il n’en coûte moins d’un clique!
Conférences • 2001 - SpamCon: To further the cooperative fight (San Francisco) • 2002 - Asia-Pacific Anti-Spam BoF (Shanghai) • 2003 - First Russian National Spam Conference (Moscow) • 2004 - FTC/NIST Email Authentication Summit (Washington) • 2005 - SPAM Conférence (Cambridge) • 2006 - Third Conference on Email and Anti-Spam CEAS (California)
Techniques des spammeurs(Trouver des cibles) • Les robots • Programmes automatiques servant à récolter des adresses électroniques depuis les sites web des gens. • Chaînes de courriers • Courriers coeurs, humanitaire… • Images • Derrière les images incluses dans les messages se cachent parfois des « attrapes adresses e-mails». Ces mouchards web renvoient secrètement un message à l'expéditeur en lui indiquant que votre adresse est bien active. • Groupes de discussion • Les « spammeurs » peuvent tenter de récupérer votre adresse e-mail lorsque vous dialoguez sur un groupe de discussion ou une salle de « chat » (conversation en direct). • …
Outils(liste) • Overture: Bulk Email • Overture: Spam Hosting • Spamware • Spamware Comparison • Bulkers Club • Million Dollar Emails • Americaint • Bulk Email Marketing • SaBox Software • Virtumundo • BulkList • Spam Hosting • Port25 • Advanced Mass Sender • Inkjet Affiliate • Spam Friendly Hosting • Bullet Proof Hosting • Send Fake Mail • WFS Direct • Stealth Mass Mailer • Extractor Pro • Migada • Azoogle • Bj Express • CustomerBlast.Com • IEMailworld • Kaxy.Com • Gammadyne • Desktop Server • Response Rates • Penn Media • Massive Mailer • Bulk Email Lists • Bulk Email Net • Mailloop • Talk-n-Mail • Bulk Email Software • Equalamail • Optin Inc • Infinity Mailer • Filter Buster • Filter Breeze • BulkThisWay • Millions of Emails • Express Mail Server • Filter Buster
Techniques anti spam(Se cacher) • Se cacher des robots • Déguiser les adresses e-mails login@serveur.com login<at>serveur.com • Utilisation de script pour afficher l’adresse e-mail. • … • UVGBS … • Utiliser Votre Gros Bon Sens !! <tbody> <tr> <th align="right" width="20%"><a href="Members/guehene">Yann-Gaël Guéhéneuc</a></th> <td><font face="COURIER"><script type="text/javascript">email("guehene");</script></font></td> <td><i>Project leader</i></td> </tr> <tr> <th align="RIGHT"><a href="Members/guyomarj">Jean-Yves Guyomarc'h</a></th> <td><font face="COURIER"><script type="text/javascript"> email("guyomarj");</script></font></td> <td>AOP and Quality</td> </tr> <tr> <th align="RIGHT"><a href="Members/huynhduc">Duc-Loc Huynh</a></th> <td><font face="COURIER"><script type="text/javascript">email("huynhduc");</script></font></td> <td><a href="Members/huynhduc/diagrammes3D">3D Display of UML Diagrams</a></td> </tr> </tbody>
Techniques anti spam(Se cacher) • Script (suite) function email(login) { var domain = "iro.umontreal.ca" ; var subject = "subject=Ptidej Web Site" ; document.write('<a href=\"mailto:' + login + '@' + domain + ' ?' + subject + '\">') ; document.write(login + '@' + domain + '</a>') ; }
Techniques anti spam(Filtrer) • Filtrage : structure du texte • Vérifier les caractères "<>" du header • Vérifier les occurrences de "@<" du header • Vérifier la description du contenu (type audio…) • Vérifier l’encryptage du texte, par exemple "euc-kr" et "ks_c_5601-1987" (encryptage coréen) • Vérifier les champs Bcc:
Techniques anti spam(Filtrer) • Filtrage : Whitelist • Technique consistant à vérifier si le courrier reçu provient de sources fiables • Outils • TDMA Tagged Message Delivery Agent. (open source multi-platform). • ChoiceMail outil commercial our Windows.
Techniques anti spam(Filtrer) • Filtrage : Blacklist • Technique consistant à vérifier si le courrier reçu provient de sources NON fiables • Outils • Razor: logiciel open source offrant un catalogue de SPAM. Il est utilisé comme référence par SpamAssassin. • Pyzor: logiciel écrit en Python donnant accès à une base de données de spammeurs.
Techniques anti spam(Filtrer) • Réseaux bayesian • Paul Graham, essay in August 2002. In "A Plan for Spam" [http://www.paulgraham.com/spam.html] • Construction d’un modèle probabiliste bayesien des mots se référents aux SPAM et non-SPAM. • Avantages • Génération automatique du filtre à partir d’un corpus de messages • Facile à configurer, afin de rendre le filtre spécifique à un domaine • L’implémentation ce fait un quelques lignes de codes
Techniques anti spam(Détecter) • Technique de l’ADN • Chung-Kwei (talisman feng-shui servant à protéger la maison des esprits) efficasse à 97% sur plus de 65 000 SPAM • Méthode d’analyse du contenue du message en prenant chaque mot comme étant une protéine AT-GC et ainsi pouvant donner un pourcentage de tolérence aux mots.
Références • Spam filtering techniques • David Mertz (mertz@gnosis.cx), Analyzer, Gnosis Software, Inc. • 01 septembre 2002 • http://www-128.ibm.com/developerworks/linux/library/l-spamf.html • Latest Search Engine Spam Techniques • Gord Collins • 09 août 2004 • http://www.sitepoint.com/article/search-engine-spam-techniques • How do spammers harvest email addresses ? • Uri Raz • 24 novembre 2005 • http://www.private.org.il/harvest.html • How Filtering Techniques Can Screen Out Spam • Symantec. • 10 mai 2005 • http://enterprisesecurity.symantec.com/article.cfm?articleid=5666&EID=0
Help keep spam out of your inbox • Microsoft • 25 février 2005 • http://www.microsoft.com/athome/security/email/fightspam.mspx • A Unified Model of Spam Filtration • Bill Yerzunis - Mitsubishi Research Lab • 2003 • http://crm114.sourceforge.net/UnifiedFilters.pdf • FTC Spam Forum • Federal Trade Commission • 30 avril 2003 • http://www.ftc.gov/bcp/workshops/spam/