SEWM2006 中文 Web 检索评测

SEWM2006中文Web检索评测 李静静北京大学网络实验室

主要内容 • Web检索评测介绍 • CWT200g & CWT20g • 评测结果 • 总结及讨论

三个问题 • 为什么要评测？ • 社会问题：用户是否需要某个系统？ • 经济问题：某个系统值得用么？ • 评测什么？ • 查询处理时间,检索结果输出,查全率,查准率等 • 如何评测？ • 规范的测试集 • 评估方法, 如 P@n, R-P等

TREC的四个目标 • 大规模测试集为基础，推动信息检索的研究 • 经由开放式的论坛，使与会者能交流研究的成果与心得，以增进学术界、产业界与政府的交流互通 • 经由对真实检索环境的模拟与重要改进，加速将实验室研究技术转化为商业产品 • 发展适当且具应用性的评估技术，供各界遵循采用，包括开发更适用于现有系统的新的评估技术

SEWM2006中文Web检索评测 • 目标 • 研究有效的主题提取方法 • 针对用户给定的广泛查询，找到一组最佳的主页 • 研究有效的导航搜索方法 • 找到用户需要的特定页面 • 研究评估系统的稳定性 • 研究不同的方法在不同的数据集中的优劣及其原因 • 构建了CWT200g和CWT20g • 参加者对自己采用的每一种检索方法都尽可能提交针对这大小两个数据集的运行结果

主题提取（Topic Distillation） • 对于一个特定主题发现一组关键资源 • 注重以站点作为资源的查询 • 要求是在前十个结果中寻找尽可能多的不同站点（用它们的网站的入口页面表示） • 判断是否一个好的首页面,应该考查结果是否符合下面三个条件: • 是否大部分切合主题； • 提供主题的可靠的信息； • 不是一个更大的切合主题站点的一部分

导航搜索方法(Navigation search) • 主页查询(Home Page finding，HP) • 通常是一个网站的主页 • 指定页面查询(Named Page finding，NP） • 满足用户需求的特定页面 • 评测准则 • 第一个正确答案出现位置的倒数平均值（MRR）

测试集使用框架

CWT200g 根据天网搜索引擎在2005年11月份数据中的627,036个站点为数据基础容量:197GB 覆盖29,100个网站，37,482,913个网页网页本身是压缩保存, 以天网格式保存 CWT20g文档集是CWT200g文档集的一部分与CWT200g采用相同主题集，答案集不一样 CWT200g/CWT20g文档集

CWT200g文档集的构建-前期处理

CWT200g文档集的构建-网页抓取(中期) • 多线程抓取 • 广度优先抓取，限制抓取3层 • 单个网站抓取容量不限，抓完停止 • 抓取了部分动态网页

CWT200g文件集的构建-后期处理 • 全局MD5消重(网页级消重) • 充分消除冗余 • 先抓取后采样 • 提高采样准确性 • 采用压缩的天网格式保存 • 进一步提高信息量

TD主题示例 <top> <num>Number:TD182 <title>法律援助</title> <desc>Description: 中国法律援助的现状，需求等报道，及寻求法律援助的论坛等 </top>

导航搜索主题示例(HP/NP) <top> <num>Number:NP878 <title>都江堰在线</title> </top> <top> <num>Number:NP815 <title>法学视野中的高校学生申诉制度</title> </top>

相关答案集构建流程 各参赛队提交结果 pooling得到待判断的文档集招募人员进行相关判断对相关判断进行检查，得到相关答案集

2006年提交结果的参赛队

各主题的相关答案数

评测方法 • TD主题提取 • P@10, R-P, bpref • 导航搜索 • MRR

TD评测结果

NPHP评测结果

关键是“可比性” • 系统的得分高低是没有多大意义的 • 当相关判断结果不同时，得分不同 • 相同测试集上的结果才有可比性 • 200G和20G是两个不同的测试集 • 在不同的测试集上比较结果得分是无效的

评测的可信度 • 在多个测试集上评测可以提高评测可信度 • 主题集大小对评估稳定性有影响 • 主题数目越多，评估结果越稳定 • 参赛队少，相关答案集不全 • 传统的方法如MAP可能不够好 • 解决方案： • 采用新的评估方法，如bpref

谢谢大家！

NPHP评测结果

评测方法 • P@10、R-P、MRR

SEWM2006 中文 Web 检索评测