协同分类器在垃圾邮件过滤中的应用

协同分类器在垃圾邮件过滤中的应用 网络中心研究生高庆国 2008年6月18日

主要内容 1 概述 2 SVM和KNN 3 协同的原理 4 总结

概述邮件过滤自身的特性 1 在线性 2 结构性 3 客户性 4 非均匀性

垃圾邮件过滤技术有多种,到目前为止,基于邮件内容的过滤是其中效果最好的。基于内容的过滤就是利用文本分类算法来对邮件进行过滤,可以将邮件分为两类文本:正常邮件和垃圾邮件,将邮件内容映射为向量空间中的向量,通过计算邮件间的相似度来判断是否为垃圾邮件。垃圾邮件过滤技术有多种,到目前为止,基于邮件内容的过滤是其中效果最好的。基于内容的过滤就是利用文本分类算法来对邮件进行过滤,可以将邮件分为两类文本:正常邮件和垃圾邮件,将邮件内容映射为向量空间中的向量,通过计算邮件间的相似度来判断是否为垃圾邮件。

基于内容的邮件过滤 1 基于规则的过滤方法 Ripper、决策树、Boosting决策树、粗糙集等方法 2 基于机器学习的方法 Bayes、KNN、SVM等方法

基于规则的方法具有“计划赶不上变化”的缺点基于规则的方法具有“计划赶不上变化”的缺点基于机器学习的方法具有“与时俱进”的优点

SVM 支持向量机的基本思想可概括为:首先通过非线性变换将样本空间变换到一个高维空间,然后在新空间中求取最优线性分类面,此非线性变换通过定义适当的核函数实现。

支持向量机具有以下优点: 1可以解决小样本情况下的机器学习问题 2可以提高泛化性能 3可以解决高维问题 4可以解决非线性问题 5可以避免神经网络结构选择和局部极小点问题

SVM性能的参数： SVM的性能受到核函数形式及其参数、问题本身的复杂程度、分类面附近的噪声点、输入向量参数选择、样本数量、样本分布等因素的影响,其中前三个因素起着关键性作用。

SVM错分示意图

其中L1和L2为分界面左右限,L0为实际分界面,L为理想中的最佳分类面。误判通常发生在L1、L2区间内的样本。训练样本不足是错误发生的主要原因,此外,特征空间线性可分特性的微小出入,都会导致分界面附近的误判。其中L1和L2为分界面左右限,L0为实际分界面,L为理想中的最佳分类面。误判通常发生在L1、L2区间内的样本。训练样本不足是错误发生的主要原因,此外,特征空间线性可分特性的微小出入,都会导致分界面附近的误判。

KNN 向量空间模型（VSM）向量空间模型的基本思想是用向量来表示文本,将每个词条作为特征空间坐标系中的一维,将文本映射为该特征空间中的一个向量（T1,w1;T2,w2;…;Tn,wn）,其中Ti表示特征词条,wi表示该词条在文档中的权值。

相似度计算 在KNN算法中,相似度的选择也很重要,在向量空间模型中,两个文本之间的相似度是用两个向量的夹角余弦值来衡量的

计算权重 其中x为新文本对应的特征向量,Sin(x,di)为相似度计算公式,(di,C)为示性函数,当di∈C时,函数取1,否则取0。

KNN分类算法简介 KNN分类算法的基本思路为:对于给定新文本后,考虑训练文本集中与该新文本距离最近(最相似)的K个文本,根据这K个文本所属的类别判断新文本所属的类别。

合法邮件 预处理特征提取垃圾邮件输出合法邮件分类器 KNN 训练集数据库相似度计算过滤垃圾邮件待测邮件预处理特征提取

从分类的过程来看,KNN方法最直接地利用了样本和样本之间的关系,减少了特征选择不当对分类造成的不利影响,从而最大程度地减少了分类过程中的误差项。另外,对于一些特征不是很明显的类别,KNN方法更能体现出其分类规则独立性的优势。从对多种算法的测试表明,KNN算法在分类效果上是最佳的,同时不用投入时间进行训练。从分类的过程来看,KNN方法最直接地利用了样本和样本之间的关系,减少了特征选择不当对分类造成的不利影响,从而最大程度地减少了分类过程中的误差项。另外,对于一些特征不是很明显的类别,KNN方法更能体现出其分类规则独立性的优势。从对多种算法的测试表明,KNN算法在分类效果上是最佳的,同时不用投入时间进行训练。

KNN算法的最大的缺点就是计算的时间复杂度高。为了从训练样本中找到x的K个近邻,不得不计算x与所有样本的相似度;同时,计算出的相似度又要经过很多次比较,才能从中找到x的K个近邻。

KNN和SVM协同分类方法的主要特点有:当测试样本x落在L1左侧或L2右侧时完全由SVM决定;当测试样本x落在L1与L2之间时,采用同时考虑原始样本和特征向量的KNN分类方法完成。

算法的主要步骤： 1传统SVM的求解 2特征空间的KNN表决 3样本空间KNN的表决以及综合分类

KSVM算法结合了KNN方法与SVM的优点,可有效降低判别器的错分率,KSVM算法在特征空间的分类面附近采用KNN进行分类,未能充分利用训练样本集中多数样本的信息。

1 这种方法能有效的解决SVM过滤算法在分界面附近误判率高的特点。 2并且克服了KNN方法的时间复杂度的问题。 3而且这也是解决垃圾邮件过滤的新方法。

谢谢！

协同分类器在垃圾邮件过滤中的应用

协同分类器在垃圾邮件过滤中的应用

Presentation Transcript