基于用户群体行为分析的搜索引擎自动性能评价

基于用户群体行为分析的搜索引擎自动性能评价 清华大学智能技术与系统国家重点实验室马少平 2008年4月12日，南昌

提纲 • 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统：搜索仪 • 结论与未来工作

研究背景 • Web的发展带来了什么？ • 信息量的急剧增长 • 1994年，面向个人用户的浏览服务诞生 • 2002年，Web上所存储的数据超过500,000 TB • 知识的获取空前简单与繁荣 • “在信息化时代，知识实际上已经不是资源，智慧才是资源。” • 从Web中有效的获取知识成为人们的必需技能 • 高科技企业员工1/3的时间用于查找资料

研究背景 • 网络信息检索工具成为人们生活和工作中的重要信息获取手段 • 全球范围内84%的互联网用户使用搜索引擎，其中超过一半的人几乎每天使用。 • 2007年1月，我国网民总人数为13700万人。 • 95%以上的中国网民使用过搜索引擎，84.5%的用户将搜索引擎作为得知新网站的主要途径。 • 商用搜索引擎竞争日趋激烈。

研究背景 • 性能评价对搜索引擎的重要作用 • 对搜索引擎用户而言： • 挑选最有利于获取信息的手段 • 对搜索引擎工程师而言： • 算法及数据处理方式有效性的判断 • 对搜索引擎广告商而言： • 挑选最有效的广告投放手段

研究背景 • 搜索引擎评价的考察方式 • 搜索引擎作为网络服务供应商的属性 • 形式：用户问卷调查 • 举例：CNNIC中国搜索引擎市场调查报告 • 搜索引擎作为网络信息检索工具的属性 • 形式：传统的信息检索评价方法在网络环境中的应用。 • 举例：TREC VLC/Web/Terabyte track，SEWM评测等作为信息检索研究人员，我们的考察重点

信息检索系统的评价方法 • 评价在信息检索研究中发挥着重要的作用 • 评价在信息检索系统的研发中一直处于核心的地位，以致于算法与其效果评价方式是合二为一的（Saracevic, SIGIR 1995） • 信息检索系统评价的起源 • Kent等人第一次提出了关于Precision和Recall（开始称为relevance）的概念（Kent, 1955）

信息检索系统的评价方法 • 信息检索系统评价的起源（续） • Cranfield-like evaluation methodology • Cranfield在上世纪伍十年代末到六十年代初提出了基于查询样例集、标准答案集和语料库的评测方案，被称为IR评价的“grand-daddy” • 确立了评价在信息检索研究中的核心地位 • Gerard Salton 与 SMART 系统 • Sparck-Jones 的著作 “Information retrieval experiment” • 在线：http://www.itl.nist.gov/iaui/894.02/projects/irlib/

信息检索系统的评价方法 • 网络信息检索系统效果评价的现状 • 数据对象繁杂，标注困难 • Voorhees 估计，对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间 • TREC提出pooling方法，在保证评价结果可靠性的基础上大大减少了评判工作量 • 缺点：处理的查询数目少，针对小规模的查询集合，仍需要耗费十余名标注人员1-2个月的工作时间 • 提高搜索引擎评价方法的自动化程度势在必行

信息检索系统的评价方法 • 如何提高搜索引擎评价的自动化程度？查询样例选取标准答案标注查询样例集合标准答案集合检索系统查询结果

信息检索系统的评价方法 • 核心问题: 如何提高答案标注的自动化程度 • 利用伪相关反馈的方法进行结果自动标注 • 伪相关反馈的结果被认为是答案 • Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 • 标注的准确程度和可靠性不高 • 对查询词的近义词集合进行标注 • 根据结果网页的查询词及近义词词频进行评判 • Amitay et.al, 2004 • 初始标注工作量大，评判的可靠性不高

信息检索系统的评价方法 • 核心问题: 如何提高答案标注的自动化程度 • 利用用户行为分析方法 • Joachims et.al.(1997) 创建了一个元搜索接口，将不同搜索引擎的结果加以混杂，把用户点击不同结果的情况加以记录，并以此作为评判依据 • 用户行为分析的思路值得肯定 • 缺点：改变用户检索习惯、个体用户行为不可靠等 • 我们的研究思路 • 通过对搜索引擎记录下的用户行为日志进行分析，不额外增加用户负担。 • 使用用户群体，而不是个体的点击行为作为依据

基于用户行为分析的性能评价 • 总体思路 • 基于Cranfield方式进行评价 • 丰富的研究经验：评价指标、查询样例选取策略等 • 便于与传统的手工标注评价方式进行比较 • 基于用户关注程度进行查询样例选取 • 基于用户行为信息进行答案自动标注 • 个体用户可能在点击过程中出现谬误 • 用户群体的点击信息则是很大程度上可靠的 • 统计用户群体的点击行为，进而对查询对应的结果进行标注

搜索引擎效果自动评价 • 基于用户关注程度进行查询样例自动挑选 • 频度高于100的查询：35177个(<查询个数1%) • 覆盖了近70%的用户查询需求 • 选取热门关键词(big fat head)作为代表性样例余慧佳等，基于大规模日志分析的搜索引擎用户行为分析，中文信息学报，2007年第2期数据来源：Sogou搜索引擎2006年2月查询日志

搜索引擎效果自动评价 • 基于用户行为信息进行答案自动标注 • 根据用户信息需求不同有所差别 • 导航类信息需求对应的答案标注 • 检索目标页面单一 • H(URL|Query)较低，检索系统的处理难度较低，答案标注难度较低 • 信息事务类信息需求对应的答案标注 • 多个检索目标页面 • H(URL|Query)较高，检索系统的处理难度较高，答案标注难度较高

搜索引擎效果自动评价 • 导航类查询的答案标注 • 结果唯一，不存在“找不全”的问题 • 搜索引擎检索性能高，点击准确度较可靠 • 能够发现用户的关注热点，如 “163” => mail.163.com “搜狗” => d.sogou.com • 答案标注的难度较低

搜索引擎效果自动评价 • 信息事务类查询的答案标注 • 以查询词”电影”为例 • 不同搜索引擎的点击分布差异大 • 存在着搜索引擎对用户行为的偏置性影响 • 索引数据偏置 • 检索策略偏置 • 结果不唯一，全面性难以保证 • 答案标注难度较大 • 需要借助多个搜索引擎的用户行为信息进行标注

搜索引擎日志 数据预处理查询分类导航类标注信息类标注搜索引擎结果抓取性能评价指标计算与反馈搜索引擎效果自动评价 • 自动评价流程

搜索引擎效果自动评价 • 按信息需求将查询样例自动分类 Yiqun Liu et al, Automatic Query Type Identification Based on Click Through Information Proceedings of the 3th Asia Information Retrieval Symposium, AIRS 2006

搜索引擎效果自动评价 • 针对导航类查询的结果自动标注 • 利用单个搜索引擎的点击信息即可完成 • 焦点假设：不同用户具有相同的导航类别检索需求时，他们的点击都会集中在其检索目标网页（或其镜像）上。 • 网页r 针对查询q的点击集中度 • q的点击集中度最高的r即为其检索目标页面

搜索引擎效果自动评价 • 针对导航类查询的结果自动标注 • 标注算法：寻找针对q的ClickFocus值最大的r • 标注样例

搜索引擎效果自动评价 • 针对信息事务类查询需求的答案自动标注 • 基于多搜索引擎用户行为挖掘 1. 利用单搜索引擎用户行为挖掘方式，进行各自独立的标注 2. 借鉴Pooling做法，综合不同标注者（这里为搜索引擎用户的宏观行为）的意见

搜索引擎效果自动评价 • 基于多搜索引擎用户行为挖掘的标注算法 • 需要考虑的因素 • 用户点击行为差异 • 用户访问量差异 • 查询分布差异 • 搜索引擎相对重要性的差异 • 综合考虑以上因素，计算某个结果对于某个查询的置信度

搜索引擎效果自动评价 • 合并计算结果url对于查询q的置信度 • 基于单搜索引擎进行答案标注的可信度 • 依据查询用户数来计算

搜索引擎效果自动评价 • 单独某个搜索引擎标注答案的可信程度 • 依据此搜索引擎的用户点击的宏观集中程度来确定

搜索引擎效果自动评价 • 查询点击分布合并模型其中，反映不同搜索引擎在结果标注中的重要程度

搜索引擎效果自动评价 • 例：查询“疯狂英语”

答案自动标注实验 • 实验数据 • 8个月查询日志(超过7亿条日志信息) • 针对其中高频导航类查询进行自动标注 • 对每个时间段抽取约5%的数据进行手工检查

自动性能评价实验 • 与手工评价结果类似 • 手工评价结果与自动评价结果MRR值的相关系数达到0.965 SE1 SE2 SE3 SE4 SE5

自动性能评价实验 • 使用不同日志数据的实验 • 使用单搜索引擎日志 SE1 SE2 SE3 SE4 SE5 SE6

自动性能评价实验 • 使用不同类型日志数据的实验 • 使用多搜索引擎日志 SE1 SE2 SE3 SE4 SE5 SE6

自动性能评价实验 • 使用不同类型日志数据的实验 • 使用多搜索引擎日志进行交叉评价（评价某搜索引擎性能时不使用其对应的日志数据） SE1 SE2 SE3 SE4

自动性能评价实验 • 针对中文搜索引擎的评价实验 • 导航类信息需求 • 易于进行手工评价的比较 • 信息事务类信息需求 • 用于参照的手工评价结果的正确性本身难以保证 • 难以进行答案可靠性的验证 • “搜索仪”的评价结果（参见演示）

搜索仪：评价搜索 • Http://searchE.thuir.cn/

搜索仪：评价搜索 • 主要特点 • 一定程度取代评价搜索引擎性能的繁琐手工标注操作 • 更加客观、标准均一 • 反馈周期更短 • 标注代表性更强 • 实现对数以千计查询主题的标注 • 功能演示！

结论与未来工作 • 用户行为分析的方法一直是信息检索相关研究向前发展的推动力 • 实质：对人类信息获取规律的研究 • 基于用户行为分析的方法进行搜索引擎性能评价是适当的 • 搜索引擎的自动性能评价 • 导航类查询需求能够较好的实现自动评价 • 信息事务类查询仍需进一步的考察

可能的未来应用方向 • 检索效果的实时监控 • 检索系统自身运营维护的需要 • 及时发现并预警系统问题 • 面向特定领域需求的性能评价 • 特定领域需求 => 特定领域查询词 • 针对特定领域需求，使用特定的查询词进行评价。

可能的未来应用方向 • 汽车领域的搜索引擎排名 • 查询词样例：现代、奇瑞汽车、宝马

可能的未来应用方向 • 流行歌手领域的搜索引擎排名 • 查询词样例：周杰伦、刘德华、林心如

部分相关文献 • Yiqun Liu, Yupeng Fu, Min Zhang, Liyun Ru, Shaoping Ma. 2007. Automatic search engine performance evaluation with click-through data analysis. In Proceedings of the 16th international Conference on World Wide Web, WWW '07. 1133-1134. • 刘奕群，张敏，金奕江，马少平，一种搜索引擎性能评价的自动化处理方法，专利申请号200610144289.X。 • 岑荣伟，刘奕群，张敏，金奕江，马少平，一种基于用户行为信息的搜索引擎检索结果重排序方法，专利申请号200710099594.6。 • 岑荣伟，刘奕群，张敏，金奕江，马少平，一种网络关键资源页面的自动定位方法，专利申请号200710098531.9 • 刘奕群,岑荣伟,张敏,马少平.基于用户行为分析的搜索引擎自动性能评价.软件学报2007年已录用.

广告：NCIRCS2008 • 欢迎大家向第四届全国信息检索与内容学术会议积极投稿 • 2008年11月在北京举行 • 中文信息学会主办 • 清华大学承办 • 网址：www.thuir.cn

Thank you! Questions or comments?

基于用户群体行为分析的搜索引擎自动性能评价