530 likes | 646 Views
SEWM2007 垃圾邮件过滤系统评测. 邮件评测小组 antispam@scut.edu.cn 华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室. 主要内容. 测评背景与目的 数据集生成方法 数据集统计特征 过滤评测标准 测评结果分析 总结与讨论. 测评背景与目的. 测评背景. 垃圾邮件的泛滥 规模上的增长 技术上的提高 反垃圾技术不断更新 目前各种技术各有优缺点 技术的更新始终没有跟上垃圾邮件的“进步” 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流
E N D
SEWM2007垃圾邮件过滤系统评测 邮件评测小组antispam@scut.edu.cn华南理工大学信息网络工程研究中心广东省计算机网络重点实验室
主要内容 • 测评背景与目的 • 数据集生成方法 • 数据集统计特征 • 过滤评测标准 • 测评结果分析 • 总结与讨论
测评背景 • 垃圾邮件的泛滥 • 规模上的增长 • 技术上的提高 • 反垃圾技术不断更新 • 目前各种技术各有优缺点 • 技术的更新始终没有跟上垃圾邮件的“进步” • 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流 • 相对于英文,中文垃圾邮件过滤在技术、语料库等方面有较大差距。
测评目的 • 希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台 ; • 提高国内垃圾邮件过滤系统的性能; • 丰富一个以中文为主的邮件数据集; • 提供一个标准的开放垃圾邮件测试工具。
生成的原则 • 真实反映实际系统所接收的邮件流 • 内容特征 • 到达过程 • 适当加工以适应评测要求 • 去除垃圾邮件中的冗余部分 • 合成部分正常邮件 • 其它(去除隐私等)
数据集生成--邮件流内容特征 • 语言 • 中文 • 其他 • 编码方式 • Base64 • 7Bit • etc. • 附件类型 • gif, doc... • 邮件长度
数据集生成--到达过程 • 不同时段的密度分布(基于校园网的邮件日志) • 垃圾/正常邮件的出现频率 • 大约3:1
垃圾邮件来源 • 真实垃圾邮件 • 校园网垃圾邮件过滤系统过滤下来的垃圾邮件 • 用户报告垃圾邮件 • 涵盖90%以上的垃圾邮件
数据集加工—去除垃圾邮件冗余(1) • 超过60%的垃圾邮件为重复发送
数据集加工—去除垃圾邮件冗余(2) • 去除方法 • 基于模糊指纹 • 仅有细小差别的邮件视为相同 • 适当保留少量冗余(2~5封) • 去除结果 • Public数据集 • 样本大小:234,592 • 挑选结果:45,000 • Private数据集 • 样本大小:317,714 • 挑选结果:55,506 • 初始候选集:> 2,000,000
数据集加工—合成正常邮件 • 使用真实邮件的头信息 • 从Web上抓取邮件内容 • 多类别、多编码、以中文为主 • 自动生成附件 • 长度分布与实际情况吻合 • 考虑与垃圾邮件特征词的适当交叉 • 加入部分实际正常邮件(由志愿者贡献)
数据集加工—后续处理 • 去除(可能的)隐私信息 • IP地址、服务器名、用户名等 • 选择典型时段 • 选择标准 • 邮件数量 • 到达频次 • 按典型时段中垃圾/正常邮件的分布修改垃圾/正常邮件头中的时间字段。 • 重新命名 • 封装打包
数据集生成结果 • 数据集主要分为两个部分,一部分为公开数据集(Public Corpus)共60000封( 45,000 垃圾邮件+15,000正常邮件)提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集(Private Corpus)共75506( 55,506 垃圾邮件+20,000正常邮件)封作为测评主办单位主要评测标准。 • 两个数据集都是由数据文件(data)和索引文件(index)组成 ,Private数据集的索引文件则不公开
垃圾邮件样本示例 • 文字变形—影响过滤器的特征词提取 • 干扰文字—改变邮件的词频分布特征 • 细微差别—避开基于校验码的过滤器 • 图片变形—OCR也无能为力 • 文字变图—图片垃圾是spammers的利器
垃圾邮件样本示例—文字变形(3) • Viagra的多种拼写: • 共600,426,974,379,824,381,952种拼写方式!
垃圾邮件样本示例—干扰文字 垃圾信息 干扰文字
垃圾邮件样本示例—文字变图 • 邮件的全部内容----图片
测评邮件集相关数据统计(2) • 邮件中转次数统计
测评邮件集相关数据统计(3) • 邮件类型统计
测评邮件集相关数据统计(4) • 邮件附件类型统计
测评标准 • 本次测评根据测评工具得出的二元判别结果(垃圾邮件还是正常邮件)为原始数据,根据人为判断后得出的结果(index文件中的判别)为答案,计算出过滤器的误过滤hm%、sm%,根据hm%、sm%得到三个指标: 平均误过滤lam%、ROCA、h=.1
测评类型 • 离线型 • 先用Public集训练,再用Private集测试 • 在线型(反馈) • 边测试Private集边对过滤器进行训练
测评相关公式 • hm%:正常邮件错误判断为垃圾邮件的误过滤率 sm%:垃圾邮件错误判断为正常邮件的误过滤率 (1-ROCA)%:以hm%为横坐标,以sm%为纵坐标,取不同的阈值t时,做ROC曲线,求ROC曲线上方面积。 h=.1:hm%=0.1时,sm%的值 • 三个指标数值越小,表示垃圾邮件过滤系统性能越好;最后将根据(1-ROCA)%值为最终判断,lam%、h=.1作为参考
测评标准-ROCA计算原理 • 对于每个邮件,过滤器会产生一个score值,反映该邮件为spam的可能性。过滤器会确定自己的阈值t;当score>t时,邮件为spam,否则,邮件为ham • 若确定了所有邮件的score值,我们可以通过动态调整阈值t来获得每种可能的hm%以及对应的sm%,即通过动态调整阈值t,我们可以将sm%表示成hm%的某个函数,从而画出ROC曲线图 参考:TREC 2005 Spam Track Overview
测评标准-ROCA计算原理 • ROC曲线下面部分的面积反映了在所有可能值上过滤器效率(effectiveness)的一个累计度量,从而避免用单一的hm%或sm%进行衡量的局限性。 • 当我们衡量failure,而非effectiveness时,可以使用(1-ROCA)%,此时则对应于ROC曲线上面部分的面积。
参赛队伍测试结果 • ZJU • HAINU ham spam ham 16232 169 Spam 3768 54887 ----------------------------- Total 20000 55056 ham spam ham 1450 2062 Spam 18550 52994 ---------------------------- Total 20000 55056
DMC过滤方法简介 • 采用统计数据压缩技术; • 将邮件作为字节流,无需常规特征提取的步骤(Tokenization, etc); • 可以提取字符或二进制流层次上的特征做为过滤标准; • 具有快速判别和动态更新的特点; • 实际过滤结果明显优于bogofilter。 Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan,Spam Filtering Using Statistical Data Compression Models,Journal of Machine Learning Research,Dec. 2006. pp 2673--2698
Bogofilter过滤方法简介 • 基于Bayes原理; • 自动分析邮件文本或者标准输入文本,基于设定 的正常或者垃圾邮件信息判断邮件属性,并返回邮件是否属于垃圾邮件; • 通过对邮件的头(header)和内容(body)进行统计分析来分类,并能通过用户的分类和纠正来学习; • 对附件名进行统计,但是忽略附件内容,如图片等 。 http://bogofilter.sourceforge.net/
离线型测评结果分析(1) • 结果对比表-全部邮件
离线型测评结果分析(1) • 结果对比图-全部邮件
离线型测评结果分析(2) • 结果对比表-仅中文邮件
离线型测评结果分析(2) • 结果对比图-仅中文邮件
在线型(反馈)测评结果分析 • 结果对比表-全部邮件
在线型(反馈)测评结果分析 • 结果对比图-全部邮件
总结与讨论 • 本次邮件过滤测评总体来说准确性较高,达到了测评目的,但还有以下几点不足之处: • 仅仅对结果进行了测评,而对具体邮件过滤系统的效率没有进行测试 • 邮件集难度不够,应该有意识的增加邮件类型以加大测评难度 • 与实际邮件环境尚有一定的差距