1 / 34

基于 SDD 中文农业网页搜索系统的设计与实现

基于 SDD 中文农业网页搜索系统的设计与实现. 樊景超 硕士 中国农业科学院农业信息研究所. 为什么搜不到满意的结果?. 症结所在?. 用户 检索习惯有问题? 用户能改变吗?. Google VS Baidu 页面储备还不够多? 引擎的设计模式?. 关键词的无奈!. 交互接口. 检索系统 自然语句解析有困难 相同关键词相同需求 统计推理落后于用户. 用户 自然语言提问最理想 同样需求不同关键词 不同需求相同关键词. 关. 键. 词. 交互接口. 研究内容. 二次主题漂移检索模式. SDD 农搜. 双引擎检索系统. 农业领域专业数据.

Télécharger la présentation

基于 SDD 中文农业网页搜索系统的设计与实现

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于SDD中文农业网页搜索系统的设计与实现 樊景超 硕士 中国农业科学院农业信息研究所

  2. 为什么搜不到满意的结果? 症结所在? 用户 检索习惯有问题? 用户能改变吗? Google VS Baidu 页面储备还不够多? 引擎的设计模式? .

  3. 关键词的无奈! 交互接口 检索系统 自然语句解析有困难 相同关键词相同需求 统计推理落后于用户 用户 自然语言提问最理想 同样需求不同关键词 不同需求相同关键词 关 键 词 交互接口

  4. 研究内容 二次主题漂移检索模式 SDD农搜 双引擎检索系统 农业领域专业数据

  5. “二次主题漂移”检索模式 用户选择“与己相关” 数据检索 关键词 文档 文档 模糊不清的需求 全部结果集 接近用户需求

  6. 双引擎检索系统 Lucene SDD 用户参与 全文 语义 引擎 引擎 主题漂移

  7. 基于SVD的传统LSI算法局限性 • 分解后存储空间比原矩阵还要大 • 分解后矩阵以浮点数为主,计算量大 • 其更新方法不利于处理大量动态数据

  8. SDD(semi-discrete decomposition ) S={+1,0,-1}

  9. SDD核心–矩阵行列式的叠加 … … (d1、x1、y1) (dk、xk、yk) (dn、xn、yn)

  10. SDD外层循环 内层循环 求解x,y R1、A0等 初始化 退出判定

  11. SDD内层循环 选择y满足 退出判定

  12. SDD 性能瓶颈 • Linux 平台 到 Windows 平台移植。 • 一次矩阵所耗时间超过12小时,无法达到实用化的要求 。

  13. SDD算法改进 内层循环初始化 改进算法 向量绝对值s 拆分非零部分 快速排序非零 合并剩余向量 原算法 向量绝对值s 快速排序s 内层循环求最大值

  14. SDD 改进算法验证流程 网页预处理 中文分词 算法验证系统 SDD 矩阵分解 加载索引文件 反复检索

  15. 算法验证系统设计

  16. SDD 实验系统

  17. 中文农业专业字典 通用字典40万来源于北京大学语言研究所,专业字典19万合并去重共计53万

  18. CWT-100G简介 中文Web测试集CWT100g(Chinese Web Test collection with 100 GB web pages)是根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页,包括网页内容和Web服务器返回的信息,容量为90GB

  19. CWT-100G网页测试样本 实验机内存上限 20万 doc 11万 doc * 17万 word 3万 doc * 10万 word 4千 doc *8万 word

  20. 测试结论 Windows 平台:三个测试样本分解时间是15分钟、34分钟和110分钟,在可接受范围内。 Linux 平台:在分解时间上原算法仍然占有优势,改进后的算法,在测试样本越大,分解时间越接近原算法。

  21. 检索模式验证流程 构建双引擎索引文件 一词多义 检索模式验证系统 多词一义 精确搜索 结论

  22. 检索模式验证系统设计

  23. 二次主题漂移验证 http://www.sdd.net.cn/thesis/

  24. 科学数据中心实验数据 数据中心数据,分类明确语义特征明显

  25. 一、多词一义(GIS-地理信息系统)

  26. SDD原算法第二篇

  27. SDD改进算法第二篇

  28. 二、一词多义(cap)

  29. 一词多义(cap-共同农业政策 )

  30. 一词多义(cap-防腐剂)

  31. 一词多义(cap-群体光合速率 )

  32. 三、精确需求的语义功能

  33. 四、验证结论 1、用户检索习惯加一次鼠标点击,负担最小 2、需要用户参与,语义结果与当前用户相关 3、可有效避免多词一义,一词多义问题,提高查全率,查准率。

  34. Thank You ! http://www.sdd.net.cn

More Related