260 likes | 388 Vues
信息检索模型. 信息检索模型. 信息检索模型( Information Retrieval Model )是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是 IR 中的核心内容之一。. 原始查询. 查询表示. 文档表示. 原始文档. 相关度计算. 信息检索模型. 用形式特征可以将信息检索模型表示为一个四元组的模型框架: IR = <D, Q, R(q,d)> 。 D 是文档表示 Q 是查询表示 R(q , d ) 是一个排序函数. 相关概念. 标引词 (Index Term)
E N D
信息检索模型 • 信息检索模型(Information Retrieval Model)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。 • 本质上是对相关度建模。 • 信息检索模型是IR中的核心内容之一。 原始查询 查询表示 文档表示 原始文档 相关度计算
信息检索模型 用形式特征可以将信息检索模型表示为一个四元组的模型框架: IR = <D, Q, R(q,d)>。 D是文档表示 Q是查询表示 R(q ,d )是一个排序函数
相关概念 • 标引词(Index Term) 标引词是能代表文档内容的特征,可以是字、词、 短语或者某种语义单元,关键词(key words) 可以看成标引词的一种。 文档表示成多个标引词的集合 • 标引词的权重(Weight) 不同标引词作用是不同的 通过权重加以区分
信息检索模型的分类 从所使用的数学方法上分: • 基于集合论的IR模型(Set Theoretic models) 布尔模型 基于模糊集的模型 扩展布尔模型 • 基于代数论的IR模型(Algebraic models) 向量空间模型 潜性语义索引模型 神经网络模型 • 基于概率统计的IR模型(Probabilistic models) 回归模型 概率模型 语言模型建模IR模型 推理网络模型 信任度网络模型
布尔模型(Boolean Model) • 布尔模型:查询和文档均表示为标引词(“是否存在”) 的布尔表达式,通常表示成D(t 1,t 2,⋯ ,t i)的形式。 • 布尔操作(关系) :与(AND) 或(OR) 非(NOT) • 相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。 • 类似于传统数据库检索,是精确匹配
布尔模型的优点 • 简单、易理解、易实现 • 现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索
布尔模型的局限性 • 只能严格匹配,文献要么相关、要么不相关,并没有一个相关级别的概念,因此很难有好的检索效果 • 构造布尔逻辑式不容易,对于一般用户而言,很难用AND、OR、NOT运算符的结合来准确地表达一个检索语句,标引词的简单组配不能完全反映用户的实际需要; • 检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小 • 结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要
向量空间模型 • 向量空间模型(Vector Space Model,VSM)是康奈尔大学Salton等人上世纪70年代提出并倡导,原型系统SMART • 标引词独立性假设:标引词在文档中的出现是独立、互不影响的。 • 查询和文档都可转化成标引词及其权重组成的向量 • 向量之间通过距离计算得到查询和每个文档的相似度。
向量表示 • 文档Dj的向量可以表示为Dj(w1j, w2j,⋯,wnj ) ,其中n是系统中的标引词数目,wij代表了标引词i在文档Dj中的权重。 • 查询Q的向量可以表示为Q(w1q, w2q,⋯,wnq ) ,wiq代表了标引词i在查询Q中的权重
文档-标引词矩阵(Doc-Term Matrix) n篇文档,m个标引词构成的矩阵Am*n, 每列可以看成每篇文档的向量表示,同时, 每行也可以可以看成标引词的向量表示
权重计算 • 布尔权重:标引词i在文档j中的权重wij =0或1(出现则取1,否则取0) • TF权重:TF(Term Frequency)是标引词在文档中出现的次数。权重wij = TFij或者归一化后的TF值
权重计算 TF的归一化(Normalization):将一篇文档中所有的标引词的TF值归一化到[0,1]之间。通常可以采用以下三种方式之一: Maximum Normalization [1,2,1,0,4] [0.25,0.5,0.25,0,1] Augmented Maximum Normalization [1,2,1,0,4] [0.625,0.75,0.625,0.5,1] Cosine Normalization [1,2,1,0,4] [0.213,0.426,0.213,0,0.852]
权重计算 • 标引词的文档频率DF(Document Frequency):标引词在整个文档集合中出现的文档篇数,DF反映了标引词的区分度, DF越高表示标引词越普遍,因此其区分度越低,其权重也越低。 • 逆文档频率(Inverse DF ,IDF)DF的倒数,通常采用如下公式计算:(N是文档集合中所有文档的数目) • 向量空间模型中通常采用TF* IDF的方式计算权重,即标引词i在文档dj的权重wij = TFij *IDFij
相似度计算 文档和提问之间的相关程度(即相似度)可由 它们各自向量在向量空问中的相对位置来决定。相似度计算函数有很多种,较常用的是两个向量夹角的余弦函数。 文档和提问的相似度值由以下公式获得: dj q
一个例子 • 查询q:(<2006,1>,<世界杯,2>) • 文档d1:(<2006,1>,<世界 杯,3>,<德国,1>,<举行,1>) • 文档d2:(<2002,1>,<世界 杯,2>,<韩国,1>,<日本1> <举行1>)
一个例子 • 查询和文档进行向量的相似度计算: • 采用内积 文档d1和q的内积:1*1+3*2=7 文档d2和q的内积:2*2=4 • 夹角余弦 文档d1和q的夹角余弦: 文档d2和q的夹角余弦:
VSM优缺点 • 优点: • 简洁直观,可以应用到很多其他领域(文本分类、生物信息学),邮件过滤系统spamAssass。 • 支持部分匹配和近似匹配,结果可以排序 • 检索效果不错 • 缺点: • 计算量大 • 标引词的不同位置会代表不同的权重,而不同的关键词长度也会影响权重的大小 • 标引词之间的独立性假设与实际不符:实际上,标引词的出现之间是有关系的,不是完全独立的。 如:“王励勤”“乒乓球”的出现不是独立的。
概率模型 • 基本假设前提和理论 a.相关性独立原则。文献对一个检索式的相关性与文献集合 中的其他文献是独立的。 b.词的独立性。标引词和检索式中词与词之间是相互独立。 c.文献相关性是二值的,即只有相关和不相关两种。 d.概率排序原则。该原则认为,检索系统应将文档按照与查 询的概率相关性的大小排序,那么排在最前面的是最有可能 被获取的文档 e.贝叶斯(Bayes)定理,用公式表示为: P(R I d)=(d I R)·P(R)/P(d)
概率模型 • 概率检索模型是通过概率的方法将查询和文档联系起来 • 将查询Q和文档D根据有没有标引词表示为二值向量,Q={q1,q2,…},D={d1,d2,…},di=0或1表示文献中没有或有第i个标引词. 用R表示文献相关, 表示文献不相关.
概率模型 • 条件概率P(R|dj )表示文档 dj与查询qi相关的概率,条件概率P( |dj)表示文档dj与查询qi不相关的概率,利用它们的比值计算文档与查询的相似度。 • 若P(R I d)> P( I d),即比值大于1,则文献相关程度大于不相关程度,认为文献d是相关的,否则认为文献d不相关。在两者相等时,人为地认为它是不相关的。
概率模型优缺点 • 优点 a.采用严格的数学理论为依据,为人们提供了一种数学理论基础来进行检索决策;PubMed的related articles 。 b.采用相关反馈原理 c.在其中没有使用用户难以运用的布尔逻辑方法; d.在操作过程中使用了词的依赖性和相互关系。 • 缺点: a.计算复杂度大,不适合大型网络 b.参数估计难度较大 c.条件概率值难估计 d.系统的检索性能提高不明显,需与其他检索模型结合
研究进展 • 基于本体的信息检索模型 • 基于概念的信息检索模型 • 基于语义的信息检索模型 • 基于文摘的信息检索模型