1 / 20

SEWM2006 中文网页分类评测 清华大学参赛队报告

SEWM2006 中文网页分类评测 清华大学参赛队报告. 清华大学计算机科学与技术系 智能技术与系统国家重点实验室 徐舒 xus05@mails.tsinghua.edu.cn. 内容提纲. CWT200G 数据预处理 网页分类策略 未来工作及建议 参考文献. 数据预处理-总体设计. zlib 压缩存储 处理全部 200G 数据 保留原始网页的页面信息和链接关系 中间数据可用于对网页分类的进一步的研究. 数据预处理- HTML 解析( 1 ). 网页分类需要注意的几个问题: 直接应用纯文本分类策略效果很差 通常包含具有丰富语义信息的 Tag

tevy
Télécharger la présentation

SEWM2006 中文网页分类评测 清华大学参赛队报告

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SEWM2006中文网页分类评测清华大学参赛队报告 清华大学计算机科学与技术系 智能技术与系统国家重点实验室 徐舒 xus05@mails.tsinghua.edu.cn

  2. 内容提纲 • CWT200G数据预处理 • 网页分类策略 • 未来工作及建议 • 参考文献

  3. 数据预处理-总体设计 • zlib压缩存储 • 处理全部200G数据 • 保留原始网页的页面信息和链接关系 • 中间数据可用于对网页分类的进一步的研究

  4. 数据预处理-HTML解析(1) • 网页分类需要注意的几个问题: • 直接应用纯文本分类策略效果很差 • 通常包含具有丰富语义信息的Tag • 通常含有大量噪声 • 可能包含多媒体信息而无确切的文本内容 • 提取HTML中如下标签和属性: • <Title> • <METADATA> (keywords,description,etc), • <A> (Surrounding text) • 页面正文信息 • 实现方法: • 基于Python的HTMLParser类,重载其中部分接口

  5. 数据预处理-HTML解析(2) • 编码转换: • 常用网页编码格式: • GBK/GB18030/GB2312(简体) • BIG-5(繁体) • UTF8/UTF16(通用) • 只处理BIG5,GBK和UTF-8三种编码 • 统一转码成为GBK编码(编码转换库Libiconv) • 05年训练集中的编码数量统计: • BIG5:53, • UTF-8:6, • GBK:15457

  6. 数据预处理-信息抽取和去噪(1) • 在解析HTML的基础上进行 • 表征同一网页的不同形式 • 页面内部信息 • 标题 • META信息 • 页面正文 • 页面链接文本 • Web结构信息 • 链入文本聚合

  7. 数据预处理-信息抽取和去噪(2) • 过滤广告噪声(基于规则) • 无链接文字(AnchorText) • 链接文字周围没有非链接的文字 • 链接文字中出现了给定的过滤关键词,例如“下一页”,“图铃”等 • 缺乏可靠的抑制噪声的措施 • 不直接删除广告信息,而是给出标记,由后续程序进一步判断

  8. 数据预处理-并行化 • 海量数据,无进程间通信,易于并行处理 • 申请使用清华大学计算机集群系统 • 128台rx2600服务器作为计算节点 ,256 安腾CPU • RedHat Linux操作系统 • 每秒13300亿次的峰值浮点运算能力 • 实际使用:12节点,预处理用时:28小时

  9. 数据预处理-中间数据格式 .ID CWT200G-DFHR23224 .URL http://adminabc.bdwm.net/ .METADATA @title:北大未明 .ANCHORDATA 首页 联系我们 .LINKSIN @link:http://edu.sina.com @anchortext:北大未明 @surroundingtext:点击进入北大为名网站 @Use:Y .LINKSOUT @link:http://adminabc.bdwm.net/about.html @anchortext:关于我们 @surroundingtext: @Use:Y .CONTENT 欢迎来到北大未明网站 .CLASSID

  10. 内容提纲 • CWT200G数据预处理 • 网页分类策略 • 未来工作及建议 • 参考文献

  11. 分类策略-综述 • 基于纯文本分类策略 • 向量空间模型 • 采用SVM(libSVM)作为试验中统一使用的分类器 • 特征的选择远比分类器本身重要 • 良好的泛化能力 • 由于训练后模型只需考虑支持向量,分类速度快 • 特征和权重 • 二元串(Bigram)作为特征 • TF*IDF权重 • CHI-square进行特征选择,70000维

  12. 分类策略-多特征融合 • 多个来源,独立表征网页的信息的融合 • 采用线性加权的方法融合 • 使用插值法贪婪搜索确定各个特征的权重 • 最终采用的融合策略(向量级特征融合):

  13. 分类策略-链接分析(1) • 网页间存在链接:主题存在一定关联 • 分类完成基础上,简单的标签传播算法进行refine(20G) Step1:给出20G目标网页集合中所有的网页分类标签,并给出分类的置信度。 Step2:对于那些进行了归一化之后分类置信度很低的网页,我们认为这些网页的分类结果是不可靠的, Step3:对于上述所有置信度很低的网页,观察指向该网页的所有网页的分类结果,如果这些网页均为分类置信度很高的网页,并且在分类结果上有很强的内聚性,则将当前页面的分类标签更换为指向其的那些网页的分类结果。

  14. 分类策略-链接分析(2) 8类上的传播效果 11类上的传播效果

  15. 内容提纲 • CWT200G数据预处理 • 网页分类策略 • 未来工作及建议 • 参考文献

  16. 未来工作 • 更加有效的页面去噪方法(VIPS,摘要等) • 更大规模的数据集上进行链接分析 • 改进标签传播的算法

  17. 一些感想和建议 • 8类的分类体系有些过于重叠:如娱乐和时尚 • 用户调查(User Study)的结果: • 在05年的1100篇测试集上进行标注 • 比较8类分类器的机器分类结果和用户标注 • 存在用户和机器标注不一致但都合理的情况 • 上述情形在分类置信度存在双峰时尤为突出:(73/1100) • 层次分类(Google Directory)?多标签?

  18. 内容提纲 • CWT200G数据预处理 • 网页分类策略 • 未来工作及建议 • 参考文献

  19. 参考文献 • [1] G.R. Xue, Q, Yang H.J Zeng, Y,Yu and Z.Chen. Exploiting the Hierarchical Structure for Link Analysis The 28th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'2005), July 2005. • [2] D. Cai, X. F. He, J. R. Wen and W.Y. Ma. Block-level Link Analysis. The 27th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'2004), July 2004. • [3] Y.H.Hu and G.M.Xin. Title Extraction from Bodies of HTML Documents and its application to Web Page Retrieval • [4].J.Glover. Using Web Structure for Classifying and Describing Web Pages, www2002. • [5] J. F¨urnkranz. Exploiting structural information for text classification on the WWW. In Intelligent Data Analysis, pages 487–498, 1999. • [6] S. Chakrabarti, B. Dom, and P. Indyk. Enhanced hypertext categorization using hyperlinks. SIGMOD Record (ACMSpecial Interest Group on Management of Data), 27(2):307–318, June 1998. • [7] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-training. In COLT: Proceedings of theWorkshop on Computational Learning Theory, MorganKaufmann Publishers, 1998. • [8] Y. Yang, S. Slattery, and R. Ghani. A study of approaches to hypertext categorization. Journal of Intelligent InformationSystems. Kluwer Academic Press, (accepted), 2001.

  20. Thank you! Q&A

More Related