470 likes | 601 Vues
基于用户群体行为分析的 搜索引擎自动性能评价 . 清华大学智能技术与系统国家重点实验室 马少平 2008 年 4 月 12 日,南昌. 提纲. 研究背景 信息检索系统的评价方法 基于用户行为分析的搜索引擎性能评价 演示系统:搜索仪 结论与未来工作. 研究背景. Web 的发展带来了什么? 信息量的急剧增长 1994 年,面向个人用户的浏览服务诞生 2002 年, Web 上所存储的数据超过 500,000 TB 知识的获取空前简单与繁荣 “在信息化时代, 知识实际上已经不是资源,智慧才是资源 。” 从 Web 中有效的获取知识成为人们的必需技能
E N D
基于用户群体行为分析的搜索引擎自动性能评价 清华大学智能技术与系统国家重点实验室 马少平 2008年4月12日,南昌
提纲 • 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
研究背景 • Web的发展带来了什么? • 信息量的急剧增长 • 1994年,面向个人用户的浏览服务诞生 • 2002年,Web上所存储的数据超过500,000 TB • 知识的获取空前简单与繁荣 • “在信息化时代,知识实际上已经不是资源,智慧才是资源。” • 从Web中有效的获取知识成为人们的必需技能 • 高科技企业员工1/3的时间用于查找资料
研究背景 • 网络信息检索工具成为人们生活和工作中的重要信息获取手段 • 全球范围内84%的互联网用户使用搜索引擎,其中超过一半的人几乎每天使用。 • 2007年1月,我国网民总人数为13700万人。 • 95%以上的中国网民使用过搜索引擎,84.5%的用户将搜索引擎作为得知新网站的主要途径。 • 商用搜索引擎竞争日趋激烈。
研究背景 • 性能评价对搜索引擎的重要作用 • 对搜索引擎用户而言: • 挑选最有利于获取信息的手段 • 对搜索引擎工程师而言: • 算法及数据处理方式有效性的判断 • 对搜索引擎广告商而言: • 挑选最有效的广告投放手段
研究背景 • 搜索引擎评价的考察方式 • 搜索引擎作为网络服务供应商的属性 • 形式:用户问卷调查 • 举例:CNNIC中国搜索引擎市场调查报告 • 搜索引擎作为网络信息检索工具的属性 • 形式:传统的信息检索评价方法在网络环境中的应用。 • 举例:TREC VLC/Web/Terabyte track,SEWM评测等 作为信息检索研究人员,我们的考察重点
提纲 • 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
信息检索系统的评价方法 • 评价在信息检索研究中发挥着重要的作用 • 评价在信息检索系统的研发中一直处于核心的地位,以致于算法与其效果评价方式是合二为一的(Saracevic, SIGIR 1995) • 信息检索系统评价的起源 • Kent等人第一次提出了关于Precision和Recall(开始称为relevance)的概念(Kent, 1955)
信息检索系统的评价方法 • 信息检索系统评价的起源(续) • Cranfield-like evaluation methodology • Cranfield在上世纪伍十年代末到六十年代初提出了基于查询样例集、标准答案集和语料库的评测方案,被称为IR评价的“grand-daddy” • 确立了评价在信息检索研究中的核心地位 • Gerard Salton 与 SMART 系统 • Sparck-Jones 的著作 “Information retrieval experiment” • 在线:http://www.itl.nist.gov/iaui/894.02/projects/irlib/
信息检索系统的评价方法 • 网络信息检索系统效果评价的现状 • 数据对象繁杂,标注困难 • Voorhees 估计,对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间 • TREC提出pooling方法,在保证评价结果可靠性的基础上大大减少了评判工作量 • 缺点:处理的查询数目少,针对小规模的查询集合,仍需要耗费十余名标注人员1-2个月的工作时间 • 提高搜索引擎评价方法的自动化程度势在必行
信息检索系统的评价方法 • 如何提高搜索引擎评价的自动化程度? 查询样例选取 标准答案标注 查询样例集合 标准答案集合 检索系统查询结果
信息检索系统的评价方法 • 核心问题: 如何提高答案标注的自动化程度 • 利用伪相关反馈的方法进行结果自动标注 • 伪相关反馈的结果被认为是答案 • Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 • 标注的准确程度和可靠性不高 • 对查询词的近义词集合进行标注 • 根据结果网页的查询词及近义词词频进行评判 • Amitay et.al, 2004 • 初始标注工作量大,评判的可靠性不高
信息检索系统的评价方法 • 核心问题: 如何提高答案标注的自动化程度 • 利用用户行为分析方法 • Joachims et.al.(1997) 创建了一个元搜索接口,将不同搜索引擎的结果加以混杂,把用户点击不同结果的情况加以记录,并以此作为评判依据 • 用户行为分析的思路值得肯定 • 缺点:改变用户检索习惯、个体用户行为不可靠等 • 我们的研究思路 • 通过对搜索引擎记录下的用户行为日志进行分析,不额外增加用户负担。 • 使用用户群体,而不是个体的点击行为作为依据
提纲 • 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
基于用户行为分析的性能评价 • 总体思路 • 基于Cranfield方式进行评价 • 丰富的研究经验:评价指标、查询样例选取策略等 • 便于与传统的手工标注评价方式进行比较 • 基于用户关注程度进行查询样例选取 • 基于用户行为信息进行答案自动标注 • 个体用户可能在点击过程中出现谬误 • 用户群体的点击信息则是很大程度上可靠的 • 统计用户群体的点击行为,进而对查询对应的结果进行标注
搜索引擎效果自动评价 • 基于用户关注程度进行查询样例自动挑选 • 频度高于100的查询:35177个(<查询个数1%) • 覆盖了近70%的用户查询需求 • 选取热门关键词(big fat head)作为代表性样例 余慧佳等,基于大规模日志分析的搜索引擎用户行为分析,中文信息学报,2007年第2期 数据来源:Sogou搜索引擎2006年2月查询日志
搜索引擎效果自动评价 • 基于用户行为信息进行答案自动标注 • 根据用户信息需求不同有所差别 • 导航类信息需求对应的答案标注 • 检索目标页面单一 • H(URL|Query)较低,检索系统的处理难度较低,答案标注难度较低 • 信息事务类信息需求对应的答案标注 • 多个检索目标页面 • H(URL|Query)较高,检索系统的处理难度较高,答案标注难度较高
搜索引擎效果自动评价 • 导航类查询的答案标注 • 结果唯一,不存在“找不全”的问题 • 搜索引擎检索性能高,点击准确度较可靠 • 能够发现用户的关注热点,如 “163” => mail.163.com “搜狗” => d.sogou.com • 答案标注的难度较低
搜索引擎效果自动评价 • 信息事务类查询的答案标注 • 以查询词”电影”为例 • 不同搜索引擎的点击分布差异大 • 存在着搜索引擎对用户行为的偏置性影响 • 索引数据偏置 • 检索策略偏置 • 结果不唯一,全面性难以保证 • 答案标注难度较大 • 需要借助多个搜索引擎的用户行为信息进行标注
搜索引擎日志 数据预处理 查询分类 导航类标注 信息类标注 搜索引擎结果抓取 性能评价指标计算与反馈 搜索引擎效果自动评价 • 自动评价流程
搜索引擎效果自动评价 • 按信息需求将查询样例自动分类 Yiqun Liu et al, Automatic Query Type Identification Based on Click Through Information Proceedings of the 3th Asia Information Retrieval Symposium, AIRS 2006
搜索引擎效果自动评价 • 针对导航类查询的结果自动标注 • 利用单个搜索引擎的点击信息即可完成 • 焦点假设:不同用户具有相同的导航类别检索需求时,他们的点击都会集中在其检索目标网页(或其镜像)上。 • 网页r 针对查询q的点击集中度 • q的点击集中度最高的r即为其检索目标页面
搜索引擎效果自动评价 • 针对导航类查询的结果自动标注 • 标注算法:寻找针对q的ClickFocus值最大的r • 标注样例
搜索引擎效果自动评价 • 针对信息事务类查询需求的答案自动标注 • 基于多搜索引擎用户行为挖掘 1. 利用单搜索引擎用户行为挖掘方式,进行各自独立的标注 2. 借鉴Pooling做法,综合不同标注者(这里为搜索引擎用户的宏观行为)的意见
搜索引擎效果自动评价 • 基于多搜索引擎用户行为挖掘的标注算法 • 需要考虑的因素 • 用户点击行为差异 • 用户访问量差异 • 查询分布差异 • 搜索引擎相对重要性的差异 • 综合考虑以上因素,计算某个结果对于某个查询的置信度
搜索引擎效果自动评价 • 合并计算结果url对于查询q的置信度 • 基于单搜索引擎进行答案标注的可信度 • 依据查询用户数来计算
搜索引擎效果自动评价 • 单独某个搜索引擎标注答案的可信程度 • 依据此搜索引擎的用户点击的宏观集中程度来确定
搜索引擎效果自动评价 • 查询点击分布合并模型 其中, 反映不同搜索引擎在结果标注中的重要程度
搜索引擎效果自动评价 • 例:查询“疯狂英语”
答案自动标注实验 • 实验数据 • 8个月查询日志(超过7亿条日志信息) • 针对其中高频导航类查询进行自动标注 • 对每个时间段抽取约5%的数据进行手工检查
自动性能评价实验 • 与手工评价结果类似 • 手工评价结果与自动评价结果MRR值的相关系数达到0.965 SE1 SE2 SE3 SE4 SE5
自动性能评价实验 • 使用不同日志数据的实验 • 使用单搜索引擎日志 SE1 SE2 SE3 SE4 SE5 SE6
自动性能评价实验 • 使用不同类型日志数据的实验 • 使用多搜索引擎日志 SE1 SE2 SE3 SE4 SE5 SE6
自动性能评价实验 • 使用不同类型日志数据的实验 • 使用多搜索引擎日志进行交叉评价(评价某搜索引擎性能时不使用其对应的日志数据) SE1 SE2 SE3 SE4
自动性能评价实验 • 针对中文搜索引擎的评价实验 • 导航类信息需求 • 易于进行手工评价的比较 • 信息事务类信息需求 • 用于参照的手工评价结果的正确性本身难以保证 • 难以进行答案可靠性的验证 • “搜索仪”的评价结果(参见演示)
提纲 • 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
搜索仪:评价搜索 • Http://searchE.thuir.cn/
搜索仪:评价搜索 • Http://searchE.thuir.cn/
搜索仪:评价搜索 • 主要特点 • 一定程度取代评价搜索引擎性能的繁琐手工标注操作 • 更加客观、标准均一 • 反馈周期更短 • 标注代表性更强 • 实现对数以千计查询主题的标注 • 功能演示!
提纲 • 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
结论与未来工作 • 用户行为分析的方法一直是信息检索相关研究向前发展的推动力 • 实质:对人类信息获取规律的研究 • 基于用户行为分析的方法进行搜索引擎性能评价是适当的 • 搜索引擎的自动性能评价 • 导航类查询需求能够较好的实现自动评价 • 信息事务类查询仍需进一步的考察
可能的未来应用方向 • 检索效果的实时监控 • 检索系统自身运营维护的需要 • 及时发现并预警系统问题 • 面向特定领域需求的性能评价 • 特定领域需求 => 特定领域查询词 • 针对特定领域需求,使用特定的查询词进行评价。
可能的未来应用方向 • 汽车领域的搜索引擎排名 • 查询词样例:现代、奇瑞汽车、宝马
可能的未来应用方向 • 流行歌手领域的搜索引擎排名 • 查询词样例:周杰伦、刘德华、林心如
部分相关文献 • Yiqun Liu, Yupeng Fu, Min Zhang, Liyun Ru, Shaoping Ma. 2007. Automatic search engine performance evaluation with click-through data analysis. In Proceedings of the 16th international Conference on World Wide Web, WWW '07. 1133-1134. • 刘奕群,张敏,金奕江,马少平,一种搜索引擎性能评价的自动化处理方法,专利申请号200610144289.X。 • 岑荣伟,刘奕群,张敏,金奕江,马少平,一种基于用户行为信息的搜索引擎检索结果重排序方法,专利申请号200710099594.6。 • 岑荣伟,刘奕群,张敏,金奕江,马少平,一种网络关键资源页面的自动定位方法,专利申请号200710098531.9 • 刘奕群,岑荣伟,张敏,马少平.基于用户行为分析的搜索引擎自动性能评价.软件学报2007年已录用.
广告:NCIRCS2008 • 欢迎大家向第四届全国信息检索与内容学术会议积极投稿 • 2008年11月在北京举行 • 中文信息学会主办 • 清华大学承办 • 网址:www.thuir.cn
Thank you! Questions or comments?