280 likes | 536 Vues
英文 Stemmer & Chunking. 英语 NLP 开拓组 2008.11. Stemmer 项目. Outline. 项目简介 技术方案 项目评估 应用 项目总结 Reference. 项目简介. 项目背景 项目目标 项目成员 项目时间. 项目背景. 随着网站规模的扩大以及 query 量的增大, B2B 原有的 stemming 算法已经不能满足现在的需求。 目前的 B2B 在线的 Stemmer Tool 不能灵活增加特殊词表。. 项目目标. 基于 Porter2 算法的开发,抽取一个英文单词的词干。
E N D
英文Stemmer & Chunking 英语NLP开拓组 2008.11
Stemmer项目 asc irm-saa 部门 08 年终总结
Outline • 项目简介 • 技术方案 • 项目评估 • 应用 • 项目总结 • Reference asc irm-saa 部门 08 年终总结
项目简介 • 项目背景 • 项目目标 • 项目成员 • 项目时间 asc irm-saa 部门 08 年终总结
项目背景 • 随着网站规模的扩大以及query量的增大,B2B原有的stemming算法已经不能满足现在的需求。 • 目前的B2B在线的Stemmer Tool不能灵活增加特殊词表。 asc irm-saa 部门 08 年终总结
项目目标 • 基于Porter2算法的开发,抽取一个英文单词的词干。 • 应用于B2B国际站的建索引,查询扩展,购物者的Query分析,Offer的相关性排序。 asc irm-saa 部门 08 年终总结
项目人员和项目时间 • 项目成员 • 项目经理:林锋 • 成员:来夏莹(实习生) • 开发时间 • 2008/08/01 – 2008/08/29 asc irm-saa 部门 08 年终总结
技术方案 • 系统流程 • 数据资源 asc irm-saa 部门 08 年终总结
系统流程 输入的词 去掉’s, ’d, ’t等后缀 是否在特殊词表中 是 否 找到对应的词 基于Porter2000 算法去根 输出 asc irm-saa 部门 08 年终总结
Porter 2000算法中的部分规则 • tional: replace by tion • enci: replace by ence • anci: replace by ance • abli: replace by able • entli: replace by ent • izer ization: replace by ize • ational ation ator: replace by ate • alism aliti alli: replace by al • fulness: replace by ful • ousli ousness: replace by ous • iveness iviti: replace by ive • biliti bli+: replace by ble • ogi+: replace by og if preceded by l • fulli+: replace by ful • lessli+: replace by less • li+: delete if preceded by a valid li-ending asc irm-saa 部门 08 年终总结
数据资源 • 国际站一年的Query Log。 • 国际站产品组积累的不需要去跟的特殊词,比如moulding,metallizer等。 asc irm-saa 部门 08 年终总结
项目评估(1) • 新版本与B2B在线版本的性能比较 • 数据来源:国际站的Query Log • 语料大小:600 个词 asc irm-saa 部门 08 年终总结
项目评估(2) • 新版本与B2B在线版本的运行性能比较 • 数据来源:国际站的Query Log • 语料大小:427M • 测试平台:服务器KBS10(Xeon 5405*2/4G RAM/750G SATA*2) asc irm-saa 部门 08 年终总结
应用 • B2B国际站建索引 • 英文MLR项目 • 英文Query分析 • …… asc irm-saa 部门 08 年终总结
Reference • Wiki • http://asc.alibaba-inc.com/wiki/index.php/EN-NLP • DEMO • http://kbs10.asc.cnz.alimama.com/stemmer/stemmer.php asc irm-saa 部门 08 年终总结
Chunking项目 asc irm-saa 部门 08 年终总结
Outline • 项目简介 • 技术方案 • 应用 • 下一步计划 • Reference 17 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结
项目简介 项目背景 NP ( Noun Phrase ) Chunking是自然语言处理的一项基本任务 Example: [ store unit ] with [ mirror ] “Store unit” 和 “mirror”就是NP 现有的Chunking工具从代码结构、可用性上与实际需求还存在一些差距 18 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结
项目简介 项目目的 完成一个NP Chunking 工具 好的代码组织结构和编程风格 扩展性:支持用户自定义rule 项目成员 项目经理:林锋 项目成员:郭家清 刘书良 项目时间 项目规模:8人周 预计开发时间: 2008/11/20 – 2008/12/30 19 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结
技术方案 相关工作 Pos Tagger工具 fnTBL,一个基于TBL机器学习方法的自然语言处理工具包 一个demo 版本的NP-Chunking 工具 20 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结
技术方案 系统流程图 21 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结
技术方案 规则定义 T0T1P0 I O JJ O 模板名称 模板参数 转换类型 模板名称规则: T0 T1P0 模板参数规则: I O JJ 模板名称与参数的对应关系 规则之间关系 规则的优先级依次降低 必须按规则的顺序依次执行 TBL训练方法决定了规则的优先级 22 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结
技术方案 规则库来源 运用TBL的机器学习方法,针对Wall Street Journal语料总结出来的一系列转换规则 通过规则库转换过程 运用规则索引技术组织规则,快速发现句子适用的规则组 对句子运用对应的规则组进行转换 23 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结
技术方案 数据资源 Wall Street Journal 基于Wall Street Journal的规则库 24 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结
应用 E-Chunking工具是英文NLP的一个基础工具,许多项目都需要他的支持: English Query Rewrite English Knowledge Base KeyWordExtraction Thematic-words Extraction …… asc irm-saa 部门 08 年终总结
下一步计划 以B2B query和offer为语料基础,训练规则,提高系统召回率和准确率。 尝试其它方法进行NP-Chunking 条件随机场(Conditional Random Fields, CRF) 支持向量机(Support Vector Machine,SVM) asc irm-saa 部门 08 年终总结
Reference 项目主页 http://asc.alibaba-inc.com/wiki/index.php/E-Chunking 其他参考资料 Introductioni to the CoNIL-2000 shared task Chunking.pdf Text Chunking-Transforamtion based learning.pdf http://www.cs.jhu.edu/~rflorian/fntbl/index.html asc irm-saa 部门 08 年终总结
THE END THANKS! 联系人:林锋 E-mail: frank.linf@alibaba-inc.com 电话:分机30760 联系人:刘书良 E-mail: shuliang.liu@alibaba-inc.com 电话:分机85960 asc irm-saa 部门 08 年终总结