SEWM2007 垃圾邮件过滤系统评测

SEWM2007垃圾邮件过滤系统评测 邮件评测小组antispam@scut.edu.cn华南理工大学信息网络工程研究中心广东省计算机网络重点实验室

主要内容 • 测评背景与目的 • 数据集生成方法 • 数据集统计特征 • 过滤评测标准 • 测评结果分析 • 总结与讨论

测评背景与目的

测评背景 • 垃圾邮件的泛滥 • 规模上的增长 • 技术上的提高 • 反垃圾技术不断更新 • 目前各种技术各有优缺点 • 技术的更新始终没有跟上垃圾邮件的“进步” • 有效控制垃圾邮件泛滥需要借鉴多领域的知识，更需要来自不同领域、掌握不同技术的泛垃圾人员的交流 • 相对于英文，中文垃圾邮件过滤在技术、语料库等方面有较大差距。

测评目的 • 希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台； • 提高国内垃圾邮件过滤系统的性能； • 丰富一个以中文为主的邮件数据集； • 提供一个标准的开放垃圾邮件测试工具。

数据集的生成

生成的原则 • 真实反映实际系统所接收的邮件流 • 内容特征 • 到达过程 • 适当加工以适应评测要求 • 去除垃圾邮件中的冗余部分 • 合成部分正常邮件 • 其它（去除隐私等）

数据集生成--邮件流内容特征 • 语言 • 中文 • 其他 • 编码方式 • Base64 • 7Bit • etc. • 附件类型 • gif, doc... • 邮件长度

数据集生成--到达过程 • 不同时段的密度分布（基于校园网的邮件日志） • 垃圾/正常邮件的出现频率 • 大约3:1

垃圾邮件来源 • 真实垃圾邮件 • 校园网垃圾邮件过滤系统过滤下来的垃圾邮件 • 用户报告垃圾邮件 • 涵盖90%以上的垃圾邮件

数据集加工—去除垃圾邮件冗余（1） • 超过60%的垃圾邮件为重复发送

数据集加工—去除垃圾邮件冗余（2） • 去除方法 • 基于模糊指纹 • 仅有细小差别的邮件视为相同 • 适当保留少量冗余（2～5封） • 去除结果 • Public数据集 • 样本大小：234,592 • 挑选结果：45,000 • Private数据集 • 样本大小：317,714 • 挑选结果：55,506 • 初始候选集：> 2,000,000

数据集加工—合成正常邮件 • 使用真实邮件的头信息 • 从Web上抓取邮件内容 • 多类别、多编码、以中文为主 • 自动生成附件 • 长度分布与实际情况吻合 • 考虑与垃圾邮件特征词的适当交叉 • 加入部分实际正常邮件（由志愿者贡献）

数据集加工—后续处理 • 去除（可能的）隐私信息 • IP地址、服务器名、用户名等 • 选择典型时段 • 选择标准 • 邮件数量 • 到达频次 • 按典型时段中垃圾/正常邮件的分布修改垃圾/正常邮件头中的时间字段。 • 重新命名 • 封装打包

数据集生成结果 • 数据集主要分为两个部分，一部分为公开数据集（Public Corpus）共60000封（ 45,000 垃圾邮件＋15,000正常邮件）提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库；另一部分为不公开数据集（Private Corpus）共75506（ 55,506 垃圾邮件＋20,000正常邮件）封作为测评主办单位主要评测标准。 • 两个数据集都是由数据文件（data）和索引文件（index）组成，Private数据集的索引文件则不公开

垃圾邮件样本示例 • 文字变形—影响过滤器的特征词提取 • 干扰文字—改变邮件的词频分布特征 • 细微差别—避开基于校验码的过滤器 • 图片变形—OCR也无能为力 • 文字变图—图片垃圾是spammers的利器

垃圾邮件样本示例—文字变形（1）

垃圾邮件样本示例—文字变形（2）

垃圾邮件样本示例—文字变形（3） • Viagra的多种拼写： • 共600,426,974,379,824,381,952种拼写方式！

垃圾邮件样本示例—干扰文字 垃圾信息干扰文字

垃圾邮件样本示例—细小差别(1)

垃圾邮件样本示例—细小差别(2)

垃圾邮件样本示例—图片变形(1)

垃圾邮件样本示例—图片变形(2)

垃圾邮件样本示例—文字变图 • 邮件的全部内容----图片

数据集统计特征

测评邮件集相关数据统计（1）

测评邮件集相关数据统计（2） • 邮件中转次数统计

测评邮件集相关数据统计（3） • 邮件类型统计

测评邮件集相关数据统计（4） • 邮件附件类型统计

评测标准

测评标准 • 本次测评根据测评工具得出的二元判别结果（垃圾邮件还是正常邮件）为原始数据，根据人为判断后得出的结果（index文件中的判别）为答案，计算出过滤器的误过滤hm%、sm%，根据hm%、sm%得到三个指标：平均误过滤lam%、ROCA、h=.1

测评类型 • 离线型 • 先用Public集训练，再用Private集测试 • 在线型（反馈） • 边测试Private集边对过滤器进行训练

测评相关公式 • hm%：正常邮件错误判断为垃圾邮件的误过滤率 sm%：垃圾邮件错误判断为正常邮件的误过滤率（1－ROCA）％：以hm%为横坐标，以sm%为纵坐标，取不同的阈值t时，做ROC曲线，求ROC曲线上方面积。 h=.1：hm%=0.1时，sm%的值 • 三个指标数值越小，表示垃圾邮件过滤系统性能越好；最后将根据（1－ROCA）％值为最终判断，lam%、h=.1作为参考

测评标准－ROCA计算原理 • 对于每个邮件，过滤器会产生一个score值，反映该邮件为spam的可能性。过滤器会确定自己的阈值t；当score>t时，邮件为spam，否则，邮件为ham • 若确定了所有邮件的score值，我们可以通过动态调整阈值t来获得每种可能的hm％以及对应的sm％，即通过动态调整阈值t，我们可以将sm％表示成hm％的某个函数，从而画出ROC曲线图参考：TREC 2005 Spam Track Overview

测评标准－ROCA计算原理 • ROC曲线下面部分的面积反映了在所有可能值上过滤器效率（effectiveness）的一个累计度量，从而避免用单一的hm％或sm％进行衡量的局限性。 • 当我们衡量failure，而非effectiveness时，可以使用(1-ROCA)％，此时则对应于ROC曲线上面部分的面积。

评测结果分析

参赛队伍测试结果 • ZJU • HAINU ham spam ham 16232 169 Spam 3768 54887 ----------------------------- Total 20000 55056 ham spam ham 1450 2062 Spam 18550 52994 ---------------------------- Total 20000 55056

结果对比

与国际同等过滤器的比较分析

DMC过滤方法简介 • 采用统计数据压缩技术; • 将邮件作为字节流，无需常规特征提取的步骤（Tokenization, etc）; • 可以提取字符或二进制流层次上的特征做为过滤标准； • 具有快速判别和动态更新的特点； • 实际过滤结果明显优于bogofilter。 Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan，Spam Filtering Using Statistical Data Compression Models，Journal of Machine Learning Research，Dec. 2006. pp 2673--2698

Bogofilter过滤方法简介 • 基于Bayes原理； • 自动分析邮件文本或者标准输入文本，基于设定的正常或者垃圾邮件信息判断邮件属性，并返回邮件是否属于垃圾邮件； • 通过对邮件的头（header）和内容（body）进行统计分析来分类，并能通过用户的分类和纠正来学习； • 对附件名进行统计，但是忽略附件内容，如图片等。 http://bogofilter.sourceforge.net/

离线型测评结果分析（1） • 结果对比表－全部邮件

离线型测评结果分析（1） • 结果对比图－全部邮件

离线型测评结果分析（2） • 结果对比表－仅中文邮件

离线型测评结果分析（2） • 结果对比图－仅中文邮件

在线型(反馈)测评结果分析 • 结果对比表－全部邮件

在线型(反馈)测评结果分析 • 结果对比图－全部邮件

总结与讨论

总结与讨论 • 本次邮件过滤测评总体来说准确性较高，达到了测评目的，但还有以下几点不足之处: • 仅仅对结果进行了测评，而对具体邮件过滤系统的效率没有进行测试 • 邮件集难度不够，应该有意识的增加邮件类型以加大测评难度 • 与实际邮件环境尚有一定的差距

SEWM2007 垃圾邮件过滤系统评测

SEWM2007 垃圾邮件过滤系统评测

Presentation Transcript

SEWM2007 中文 Web 检索评测