华南木棉中文网页分类器

华南理工大学信息网络工程研究中心 　广东省计算机网络重点实验室曹鸿(队长) 李嘉林陈胜荣朱旭圻全国搜索引擎与网上信息学术研讨会 SEWM 2006---中文文本分类华南木棉中文网页分类器

目录 • 系统模块 • 系统流程 • 测试结果 • 总结与展望

模块结构

网页去噪模块 • 预处理对天网格式的训练集1，训练集2及CWT20G文件进行解压，得到三个网页文档集合(11类别训练集，8类别训练集，待分类网页集），一个网页对应一个文档，以docID命名。 • 去除标签去掉无用的HTML语法标签信息 • 模板去噪对45M训练集进行数据集原来大小去噪后大小 11类别训练集 200M 68M 8 类别训练集 45M 18M CWT20G 20G 11G

模板去噪 • 使用模板去噪以后，可以比较好的去除网页中导航栏，广告条，网站介绍，公司信息，无关链接等与网页主题内容无关的噪音信息。 • 网页模板选取 • 选取一个结构相似的网页模板。我们使用网页URL作为衡量网页模板相似性的因子。 • 在训练集找出一个网页，它的URL与待分类网页URL具有最长相同前缀，这个网页就被视为网页模板。 • 模板去噪 • 记待去噪网页为t, 选取的模板为s. 然后利用JTidy建立两个网页的DOM树，从根结点开始，依次比较，如果有相同的结点，则认为该结点为噪音信息而删除。

中文分词模块 • 中文分词使用开源中文分词系统ICTCLAS，只保留名词。 • 进行中文分词后继续进行stemming处理。 • Rainbow的禁止词是SMART system 的524个，我们进行扩充达到1500个。

特征空间压缩 • 采用了IG（Information Gain: IG）特征选择算法对数据集进行特征降维，压缩特征空间。 • 200M数据集的特征空间维数为： • 65565（共138365维） • 45M数据集的特征空间维数为： • 4800（共13024维）

分类模块 • NB：朴素贝叶斯（Naïve Bayes）算法 • SVM：支持向量机（Support Vector Machine）算法 • SVMlight算法：对joachims的二元分类器进行了改进（结合OVA算法），使其可用于多元分类，并引入加权策略（OVA-WWT），提高分类精度。

OVA-WWT策略：One Vs All With Weighted Threshold • 传统OVA，只是比较文档对N个类别的相似度，简单地取相似度最大的那个类别，由于这N个相似度是由N个不同的分类器产生，简单地取最大值作为阈值策略并不合适 • 我们提出OVA-WWT（One-Vs-All-With-Weighted Threshold）算法，在OVA算法的结果融合阶段引入加权阈值策略，以提高类别公平度，从而提高分类精度。

人工操作 • CWT20G中有1900个文件由于具有某些无法识别的字符，使用本系统不能进行特征表示。我们会先统计20G网页的分类分布情况，然后将这些网页归入到分布概率最大的那个类别中去。

目录 • 系统模块 • 系统流程 • 测试结果 • 总结与展望

训练集 网页文档训练集中文分词按天网格式解压去除HTML标签及模板去噪参数调优 CWT 20G 待分类网页文档去除HTML标签及模板去噪按天网格式解压特征压缩分类器分类结果中文分词出错处理特征建模特征表示分类模型

测试结果 • 用200M网页集的训练集部分建模，测试集部分进行测试，本分类系统的宏平均正确率达到87.61%，宏平均召回率达到84.02% ，宏平均F1值达85.78%。 • 用45M 网页集的训练集部分建模，测试集部分进行测试，本分类系统的宏平均正确率达到87.96%，宏平均召回率达到85.79%，宏平均F1值达86.86%。

20G类别分布（200M模型）

目录 • 系统结构 • 系统模块 • 算法描述 • 总结与展望

总结与展望 • 相比去年的木棉分类器，增加了模板去噪技术，改进了SVMlight算法。 • 展望： • 分块权重技术：网页中不同HTML标签所表示的内容块，应该给以不同的权重 • 分层过滤：将易混淆的若干类别集中起来，独立进行第二层的分类 • 使用同义词词典 • 考虑网页间的链接关系

谢谢大家！

华南木棉中文网页分类器

华南木棉中文网页分类器

Presentation Transcript

Sea Ice

Sea Ice