1 / 53

SEWM2007 垃圾邮件过滤系统评测

SEWM2007 垃圾邮件过滤系统评测. 邮件评测小组 antispam@scut.edu.cn 华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室. 主要内容. 测评背景与目的 数据集生成方法 数据集统计特征 过滤评测标准 测评结果分析 总结与讨论. 测评背景与目的. 测评背景. 垃圾邮件的泛滥 规模上的增长 技术上的提高 反垃圾技术不断更新 目前各种技术各有优缺点 技术的更新始终没有跟上垃圾邮件的“进步” 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流

Download Presentation

SEWM2007 垃圾邮件过滤系统评测

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SEWM2007垃圾邮件过滤系统评测 邮件评测小组antispam@scut.edu.cn华南理工大学信息网络工程研究中心广东省计算机网络重点实验室

  2. 主要内容 • 测评背景与目的 • 数据集生成方法 • 数据集统计特征 • 过滤评测标准 • 测评结果分析 • 总结与讨论

  3. 测评背景与目的

  4. 测评背景 • 垃圾邮件的泛滥 • 规模上的增长 • 技术上的提高 • 反垃圾技术不断更新 • 目前各种技术各有优缺点 • 技术的更新始终没有跟上垃圾邮件的“进步” • 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流 • 相对于英文,中文垃圾邮件过滤在技术、语料库等方面有较大差距。

  5. 测评目的 • 希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台 ; • 提高国内垃圾邮件过滤系统的性能; • 丰富一个以中文为主的邮件数据集; • 提供一个标准的开放垃圾邮件测试工具。

  6. 数据集的生成

  7. 生成的原则 • 真实反映实际系统所接收的邮件流 • 内容特征 • 到达过程 • 适当加工以适应评测要求 • 去除垃圾邮件中的冗余部分 • 合成部分正常邮件 • 其它(去除隐私等)

  8. 数据集生成--邮件流内容特征 • 语言 • 中文 • 其他 • 编码方式 • Base64 • 7Bit • etc. • 附件类型 • gif, doc... • 邮件长度

  9. 数据集生成--到达过程 • 不同时段的密度分布(基于校园网的邮件日志) • 垃圾/正常邮件的出现频率 • 大约3:1

  10. 垃圾邮件来源 • 真实垃圾邮件 • 校园网垃圾邮件过滤系统过滤下来的垃圾邮件 • 用户报告垃圾邮件 • 涵盖90%以上的垃圾邮件

  11. 数据集加工—去除垃圾邮件冗余(1) • 超过60%的垃圾邮件为重复发送

  12. 数据集加工—去除垃圾邮件冗余(2) • 去除方法 • 基于模糊指纹 • 仅有细小差别的邮件视为相同 • 适当保留少量冗余(2~5封) • 去除结果 • Public数据集 • 样本大小:234,592 • 挑选结果:45,000 • Private数据集 • 样本大小:317,714 • 挑选结果:55,506 • 初始候选集:> 2,000,000

  13. 数据集加工—合成正常邮件 • 使用真实邮件的头信息 • 从Web上抓取邮件内容 • 多类别、多编码、以中文为主 • 自动生成附件 • 长度分布与实际情况吻合 • 考虑与垃圾邮件特征词的适当交叉 • 加入部分实际正常邮件(由志愿者贡献)

  14. 数据集加工—后续处理 • 去除(可能的)隐私信息 • IP地址、服务器名、用户名等 • 选择典型时段 • 选择标准 • 邮件数量 • 到达频次 • 按典型时段中垃圾/正常邮件的分布修改垃圾/正常邮件头中的时间字段。 • 重新命名 • 封装打包

  15. 数据集生成结果 • 数据集主要分为两个部分,一部分为公开数据集(Public Corpus)共60000封( 45,000 垃圾邮件+15,000正常邮件)提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集(Private Corpus)共75506( 55,506 垃圾邮件+20,000正常邮件)封作为测评主办单位主要评测标准。 • 两个数据集都是由数据文件(data)和索引文件(index)组成 ,Private数据集的索引文件则不公开

  16. 垃圾邮件样本示例 • 文字变形—影响过滤器的特征词提取 • 干扰文字—改变邮件的词频分布特征 • 细微差别—避开基于校验码的过滤器 • 图片变形—OCR也无能为力 • 文字变图—图片垃圾是spammers的利器

  17. 垃圾邮件样本示例—文字变形(1)

  18. 垃圾邮件样本示例—文字变形(2)

  19. 垃圾邮件样本示例—文字变形(3) • Viagra的多种拼写: • 共600,426,974,379,824,381,952种拼写方式!

  20. 垃圾邮件样本示例—干扰文字 垃圾信息 干扰文字

  21. 垃圾邮件样本示例—细小差别(1)

  22. 垃圾邮件样本示例—细小差别(2)

  23. 垃圾邮件样本示例—图片变形(1)

  24. 垃圾邮件样本示例—图片变形(2)

  25. 垃圾邮件样本示例—文字变图 • 邮件的全部内容----图片

  26. 数据集统计特征

  27. 测评邮件集相关数据统计(1)

  28. 测评邮件集相关数据统计(2) • 邮件中转次数统计

  29. 测评邮件集相关数据统计(3) • 邮件类型统计

  30. 测评邮件集相关数据统计(4) • 邮件附件类型统计

  31. 评测标准

  32. 测评标准 • 本次测评根据测评工具得出的二元判别结果(垃圾邮件还是正常邮件)为原始数据,根据人为判断后得出的结果(index文件中的判别)为答案,计算出过滤器的误过滤hm%、sm%,根据hm%、sm%得到三个指标: 平均误过滤lam%、ROCA、h=.1

  33. 测评类型 • 离线型 • 先用Public集训练,再用Private集测试 • 在线型(反馈) • 边测试Private集边对过滤器进行训练

  34. 测评相关公式 • hm%:正常邮件错误判断为垃圾邮件的误过滤率 sm%:垃圾邮件错误判断为正常邮件的误过滤率 (1-ROCA)%:以hm%为横坐标,以sm%为纵坐标,取不同的阈值t时,做ROC曲线,求ROC曲线上方面积。 h=.1:hm%=0.1时,sm%的值 • 三个指标数值越小,表示垃圾邮件过滤系统性能越好;最后将根据(1-ROCA)%值为最终判断,lam%、h=.1作为参考

  35. 测评标准-ROCA计算原理 • 对于每个邮件,过滤器会产生一个score值,反映该邮件为spam的可能性。过滤器会确定自己的阈值t;当score>t时,邮件为spam,否则,邮件为ham • 若确定了所有邮件的score值,我们可以通过动态调整阈值t来获得每种可能的hm%以及对应的sm%,即通过动态调整阈值t,我们可以将sm%表示成hm%的某个函数,从而画出ROC曲线图 参考:TREC 2005 Spam Track Overview

  36. 测评标准-ROCA计算原理 • ROC曲线下面部分的面积反映了在所有可能值上过滤器效率(effectiveness)的一个累计度量,从而避免用单一的hm%或sm%进行衡量的局限性。 • 当我们衡量failure,而非effectiveness时,可以使用(1-ROCA)%,此时则对应于ROC曲线上面部分的面积。

  37. 评测结果分析

  38. 参赛队伍测试结果 • ZJU • HAINU ham spam ham 16232 169 Spam 3768 54887 ----------------------------- Total 20000 55056 ham spam ham 1450 2062 Spam 18550 52994 ---------------------------- Total 20000 55056

  39. 结果对比

  40. 与国际同等过滤器的比较分析

  41. DMC过滤方法简介 • 采用统计数据压缩技术; • 将邮件作为字节流,无需常规特征提取的步骤(Tokenization, etc); • 可以提取字符或二进制流层次上的特征做为过滤标准; • 具有快速判别和动态更新的特点; • 实际过滤结果明显优于bogofilter。 Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan,Spam Filtering Using Statistical Data Compression Models,Journal of Machine Learning Research,Dec. 2006. pp 2673--2698

  42. Bogofilter过滤方法简介 • 基于Bayes原理; • 自动分析邮件文本或者标准输入文本,基于设定 的正常或者垃圾邮件信息判断邮件属性,并返回邮件是否属于垃圾邮件; • 通过对邮件的头(header)和内容(body)进行统计分析来分类,并能通过用户的分类和纠正来学习; • 对附件名进行统计,但是忽略附件内容,如图片等 。 http://bogofilter.sourceforge.net/

  43. 离线型测评结果分析(1) • 结果对比表-全部邮件

  44. 离线型测评结果分析(1) • 结果对比图-全部邮件

  45. 离线型测评结果分析(2) • 结果对比表-仅中文邮件

  46. 离线型测评结果分析(2) • 结果对比图-仅中文邮件

  47. 在线型(反馈)测评结果分析 • 结果对比表-全部邮件

  48. 在线型(反馈)测评结果分析 • 结果对比图-全部邮件

  49. 总结与讨论

  50. 总结与讨论 • 本次邮件过滤测评总体来说准确性较高,达到了测评目的,但还有以下几点不足之处: • 仅仅对结果进行了测评,而对具体邮件过滤系统的效率没有进行测试 • 邮件集难度不够,应该有意识的增加邮件类型以加大测评难度 • 与实际邮件环境尚有一定的差距

More Related