SEWM2006 中文网页分类评测清华大学参赛队报告

SEWM2006中文网页分类评测清华大学参赛队报告 清华大学计算机科学与技术系智能技术与系统国家重点实验室徐舒 xus05@mails.tsinghua.edu.cn

内容提纲 • CWT200G数据预处理 • 网页分类策略 • 未来工作及建议 • 参考文献

数据预处理－总体设计 • zlib压缩存储 • 处理全部200G数据 • 保留原始网页的页面信息和链接关系 • 中间数据可用于对网页分类的进一步的研究

数据预处理－HTML解析（1） • 网页分类需要注意的几个问题： • 直接应用纯文本分类策略效果很差 • 通常包含具有丰富语义信息的Tag • 通常含有大量噪声 • 可能包含多媒体信息而无确切的文本内容 • 提取HTML中如下标签和属性： • <Title> • <METADATA> (keywords,description,etc)， • <A> (Surrounding text) • 页面正文信息 • 实现方法： • 基于Python的HTMLParser类，重载其中部分接口

数据预处理－HTML解析（2） • 编码转换： • 常用网页编码格式： • GBK/GB18030/GB2312(简体) • BIG-5(繁体) • UTF8/UTF16(通用) • 只处理BIG5,GBK和UTF-8三种编码 • 统一转码成为GBK编码（编码转换库Libiconv） • 05年训练集中的编码数量统计： • BIG5：53， • UTF-8：6， • GBK：15457

数据预处理－信息抽取和去噪（1） • 在解析HTML的基础上进行 • 表征同一网页的不同形式 • 页面内部信息 • 标题 • META信息 • 页面正文 • 页面链接文本 • Web结构信息 • 链入文本聚合

数据预处理－信息抽取和去噪（2） • 过滤广告噪声（基于规则） • 无链接文字(AnchorText) • 链接文字周围没有非链接的文字 • 链接文字中出现了给定的过滤关键词，例如“下一页”,“图铃”等 • 缺乏可靠的抑制噪声的措施 • 不直接删除广告信息，而是给出标记，由后续程序进一步判断

数据预处理－并行化 • 海量数据，无进程间通信，易于并行处理 • 申请使用清华大学计算机集群系统 • 128台rx2600服务器作为计算节点，256 安腾CPU • RedHat Linux操作系统 • 每秒13300亿次的峰值浮点运算能力 • 实际使用：12节点，预处理用时：28小时

数据预处理－中间数据格式 .ID CWT200G-DFHR23224 .URL http://adminabc.bdwm.net/ .METADATA @title:北大未明 .ANCHORDATA 首页联系我们 .LINKSIN @link:http://edu.sina.com @anchortext:北大未明 @surroundingtext:点击进入北大为名网站 @Use:Y .LINKSOUT @link:http://adminabc.bdwm.net/about.html @anchortext:关于我们 @surroundingtext: @Use:Y .CONTENT 欢迎来到北大未明网站 .CLASSID

分类策略－综述 • 基于纯文本分类策略 • 向量空间模型 • 采用SVM（libSVM）作为试验中统一使用的分类器 • 特征的选择远比分类器本身重要 • 良好的泛化能力 • 由于训练后模型只需考虑支持向量，分类速度快 • 特征和权重 • 二元串(Bigram)作为特征 • TF*IDF权重 • CHI-square进行特征选择，70000维

分类策略－多特征融合 • 多个来源，独立表征网页的信息的融合 • 采用线性加权的方法融合 • 使用插值法贪婪搜索确定各个特征的权重 • 最终采用的融合策略（向量级特征融合）:

分类策略－链接分析（1） • 网页间存在链接:主题存在一定关联 • 分类完成基础上，简单的标签传播算法进行refine（20G） Step1：给出20G目标网页集合中所有的网页分类标签，并给出分类的置信度。 Step2：对于那些进行了归一化之后分类置信度很低的网页，我们认为这些网页的分类结果是不可靠的， Step3：对于上述所有置信度很低的网页，观察指向该网页的所有网页的分类结果，如果这些网页均为分类置信度很高的网页，并且在分类结果上有很强的内聚性，则将当前页面的分类标签更换为指向其的那些网页的分类结果。

分类策略－链接分析（2） 8类上的传播效果 11类上的传播效果

未来工作 • 更加有效的页面去噪方法（VIPS，摘要等） • 更大规模的数据集上进行链接分析 • 改进标签传播的算法

一些感想和建议 • 8类的分类体系有些过于重叠：如娱乐和时尚 • 用户调查（User Study）的结果： • 在05年的1100篇测试集上进行标注 • 比较8类分类器的机器分类结果和用户标注 • 存在用户和机器标注不一致但都合理的情况 • 上述情形在分类置信度存在双峰时尤为突出：（73/1100） • 层次分类（Google Directory）？多标签？

参考文献 • [1] G.R. Xue, Q, Yang H.J Zeng, Y,Yu and Z.Chen. Exploiting the Hierarchical Structure for Link Analysis The 28th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'2005), July 2005. • [2] D. Cai, X. F. He, J. R. Wen and W.Y. Ma. Block-level Link Analysis. The 27th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'2004), July 2004. • [3] Y.H.Hu and G.M.Xin. Title Extraction from Bodies of HTML Documents and its application to Web Page Retrieval • [4].J.Glover. Using Web Structure for Classifying and Describing Web Pages, www2002. • [5] J. F¨urnkranz. Exploiting structural information for text classification on the WWW. In Intelligent Data Analysis, pages 487–498, 1999. • [6] S. Chakrabarti, B. Dom, and P. Indyk. Enhanced hypertext categorization using hyperlinks. SIGMOD Record (ACMSpecial Interest Group on Management of Data), 27(2):307–318, June 1998. • [7] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-training. In COLT: Proceedings of theWorkshop on Computational Learning Theory, MorganKaufmann Publishers, 1998. • [8] Y. Yang, S. Slattery, and R. Ghani. A study of approaches to hypertext categorization. Journal of Intelligent InformationSystems. Kluwer Academic Press, (accepted), 2001.

Thank you! Q&A

SEWM2006 中文网页分类评测清华大学参赛队报告