1 / 23

协同分类器在垃圾邮件过滤中的应用

协同分类器在垃圾邮件过滤中的应用. 网络中心研究生 高庆国 2008 年 6 月 18 日. 主要内容. 1 概述 2 SVM 和 KNN 3 协同的原理 4 总结. 概述. 邮件过滤自身的特性 1 在线性 2 结构性 3 客户性 4 非均匀性. 垃圾邮件过滤技术有多种 , 到目前为止 , 基于邮件内容的过滤是其中 效果最好 的。基于内容的过滤就是利用文本分类算法来对邮件进行过滤 , 可以将邮件分为两类文本 : 正常邮件和垃圾邮件 , 将邮件内容映射为向量空间中的向量 , 通过计算邮件间的相似度来判断是否为垃圾邮件。. 基于内容的邮件过滤

heidi-dixon
Télécharger la présentation

协同分类器在垃圾邮件过滤中的应用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 协同分类器在垃圾邮件过滤中的应用 网络中心研究生 高庆国 2008年6月18日

  2. 主要内容 1 概述 2 SVM和KNN 3 协同的原理 4 总结

  3. 概述 邮件过滤自身的特性 1 在线性 2 结构性 3 客户性 4 非均匀性

  4. 垃圾邮件过滤技术有多种,到目前为止,基于邮件内容的过滤是其中效果最好的。基于内容的过滤就是利用文本分类算法来对邮件进行过滤,可以将邮件分为两类文本:正常邮件和垃圾邮件,将邮件内容映射为向量空间中的向量,通过计算邮件间的相似度来判断是否为垃圾邮件。垃圾邮件过滤技术有多种,到目前为止,基于邮件内容的过滤是其中效果最好的。基于内容的过滤就是利用文本分类算法来对邮件进行过滤,可以将邮件分为两类文本:正常邮件和垃圾邮件,将邮件内容映射为向量空间中的向量,通过计算邮件间的相似度来判断是否为垃圾邮件。

  5. 基于内容的邮件过滤 1 基于规则的过滤方法 Ripper、决策树、Boosting决策树、粗糙集等方法 2 基于机器学习的方法 Bayes、KNN、SVM等方法

  6. 基于规则的方法具有“计划赶不上变化”的缺点基于规则的方法具有“计划赶不上变化”的缺点 基于机器学习的方法具有“与时俱进”的优点

  7. SVM 支持向量机的基本思想可概括为:首先通过非线性变换将样本空间变换到一个高维空间,然后在新空间中求取最优线性分类面,此非线性变换通过定义适当的核函数实现。

  8. 支持向量机具有以下优点: 1可以解决小样本情况下的机器学习问题 2可以提高泛化性能 3可以解决高维问题 4可以解决非线性问题 5可以避免神经网络结构选择和局部极小点问题  

  9. SVM性能的参数: SVM的性能受到核函数形式及其参数、问题本身的复杂程度、分类面附近的噪声点、输入向量参数选择、样本数量、样本分布等因素的影响,其中前三个因素起着关键性作用。

  10. SVM错分示意图

  11. 其中L1和L2为分界面左右限,L0为实际分界面,L为理想中的最佳分类面。误判通常发生在L1、L2区间内的样本。训练样本不足是错误发生的主要原因,此外,特征空间线性可分特性的微小出入,都会导致分界面附近的误判。其中L1和L2为分界面左右限,L0为实际分界面,L为理想中的最佳分类面。误判通常发生在L1、L2区间内的样本。训练样本不足是错误发生的主要原因,此外,特征空间线性可分特性的微小出入,都会导致分界面附近的误判。

  12. KNN 向量空间模型(VSM) 向量空间模型的基本思想是用向量来表示文本,将每个词条作为特征空间坐标系中的一维,将文本映射为该特征空间中的一个向量(T1,w1;T2,w2;…;Tn,wn),其中Ti表示特征词条,wi表示该词条在文档中的权值。

  13. 相似度计算 在KNN算法中,相似度的选择也很重要,在向量空间模型中,两个文本之间的相似度是用两个向量的夹角余弦值来衡量的

  14. 计算权重 其中x为新文本对应的特征向量,Sin(x,di)为相似度计算公式,(di,C)为示性函数,当di∈C时,函数取1,否则取0。

  15. KNN分类算法简介 KNN分类算法的基本思路为:对于给定新文本后,考虑训练文本集中与该新文本距离最近(最相似)的K个文本,根据这K个文本所属的类别判断新文本所属的类别。

  16. 合法邮件 预处理 特征提取 垃圾邮件 输出 合法邮件 分类器 KNN 训练集数据库 相似度计算 过滤 垃圾邮件 待测邮件 预处理 特征提取

  17. 从分类的过程来看,KNN方法最直接地利用了样本和样本之间的关系,减少了特征选择不当对分类造成的不利影响,从而最大程度地减少了分类过程中的误差项。另外,对于一些特征不是很明显的类别,KNN方法更能体现出其分类规则独立性的优势。从对多种算法的测试表明,KNN算法在分类效果上是最佳的,同时不用投入时间进行训练。从分类的过程来看,KNN方法最直接地利用了样本和样本之间的关系,减少了特征选择不当对分类造成的不利影响,从而最大程度地减少了分类过程中的误差项。另外,对于一些特征不是很明显的类别,KNN方法更能体现出其分类规则独立性的优势。从对多种算法的测试表明,KNN算法在分类效果上是最佳的,同时不用投入时间进行训练。

  18. KNN算法的最大的缺点就是计算的时间复杂度高。为了从训练样本中找到x的K个近邻,不得不计算x与所有样本的相似度;同时,计算出的相似度又要经过很多次比较,才能从中找到x的K个近邻。

  19. KNN和SVM协同分类方法的主要特点有:当测试样本x落在L1左侧或L2右侧时完全由SVM决定;当测试样本x落在L1与L2之间时,采用同时考虑原始样本和特征向量的KNN分类方法完成。

  20. 算法的主要步骤: 1传统SVM的求解 2特征空间的KNN表决 3样本空间KNN的表决以及综合分类

  21. KSVM算法结合了KNN方法与SVM的优点,可有效降低判别器的错分率,KSVM算法在特征空间的分类面附近采用KNN进行分类,未能充分利用训练样本集中多数样本的信息。

  22. 1 这种方法能有效的解决SVM过滤算法在分界面附近误判率高的特点。 2并且克服了KNN方法的时间复杂度的问题。 3而且这也是解决垃圾邮件过滤的新方法。

  23. 谢谢!

More Related