ベクトル空間法

ベクトル空間法 • 最良優先検索 • タームの重み付けと類似度 • パッセージ検索

各タームを次元にし、質問と文書をベクトルで表現するベクトル空間各タームを次元にし、質問と文書をベクトルで表現するベクトル空間ターム：知識質問ｑ：「人工知能と知識の関係についての論文」人工知能＝１．０知識＝１．０論理プログラム＝０文書D：「第５世代の失敗」ターム：知識＝０．７　　　　：人工知能＝０　　　　：論理プログラム　　　　　　＝２．５１．００．７ Dとｑのなす角＝類似度１．０２．５ターム：人工知能ターム：論理プログラム

タームの重み　その１ターム頻度 • ターム頻度(Term Frequency: tf ) • freq(i; j) = 文書Dj におけるタームt i の出現頻度。 • 変形版ｔｆ

タームの重み　その２　文書頻度 • 文書頻度　Document frequency • ただし、Dfreq(i)はタームtiが出現する文書数 • 実際はその逆数　　　　　　を使う • 文書総数Nによる正規化

IDF • ベクトル空間モデルではidf をヒューリスィックとして導入したが、ターム分布から理論的に導くこともできる。ある文書D が関連性があるR かない¬R かの対数尤度比L(D) を考える。

ベイズの定理により 3 、4 項は、関連性のある文書とない文書の比なので文書集合における定数であるから考慮しなくてよいので無視する。

質問Qに関連する文書としてD があるとし、Q はタームwi(i = 1,2,..) からなるとする。さらにXi = 1 ならD 中にwi が出現し、Xi = 0なら出現しないとすると次式になる。 P(Xi|R)=pi, P(Xi|¬R)=qi と書くと

P(Xi|R)=pi, P(Xi|¬R)=qi と書くと 第３項は常数なので無視

ここで、pi　， qiを求めたいが直接に求めることは難しい。そこで以下のように近似をしていく。まず、piはタームi の出現確率なので非常に小さく、かつ質問に現れるようなタームについては一定と仮定すると、第1 項は、 cΣiXiということになり、質問と文書において同時に現れたターム数に比例するものになる。

qi = P(Xi = 1|¬R)だが、タームiが現れる文書の大多数はタームi に関連性がないと仮定すると、 qi =dfi/N (<<1) とすると、 log(1-x)/x ~–log x により　タームi のidf=log(N/df) となり、結局次ぎのようになる。ベクトル空間法において類似度計算に用いられる重みの重要な因子であるidfの理論的根拠が関連文書と関連しない文書の対数尤度比に比例的であるという結論が得られた。

ResidualIDF • idfとポアソン分布から予測されるdocument frequecy の差として次式で定義される。 • RIDF =–log(df/N)– log(1–p(0;cf/N)) • 第２項はPoisson分布で、タームt が少なくとも1回は現れる文書のポアソン分布における確率である。ポアソン分布は文書の意味内容に直接係わらないnon content なタームの分布をよく近似する。idfは全てのタームについてのidf だから、non content なタームの分を差し引くと意味内容を表すタームcontent wordを特徴付ける量が得られると考える

タームの重み　その３　tf ·idf • 文書Djに現れるタームtiの重みwijは、Djには数多く現れ、他の文書にはあまり現れないという性質をもつべき。つまり、文書Djをよく特徴つけることが大切。そこで、前記のtfとidfをかけたものがよい。つまり、 tf ·idf

文書ベクトルと質問ベクトルとそれらの類似度　その１文書ベクトルと質問ベクトルとそれらの類似度　その１ • このようにしてタームtiの重みが決まったので、文書Djのベクトルは、各タームを次元に割り当てた多次元空間におけるベクトルとして表現できる。つまり、 • 一方質問ｑもタームtiを含めば１、含まなければ０という値にしてベクトルで表現できる。つまり • ただし、ｍは文書集合における全ての異なりターム数

文書ベクトルと質問ベクトルとそれらの類似度　その２文書ベクトルと質問ベクトルとそれらの類似度　その２ • さて、情報検索とは、質問ｑに対して類似度の高い文書Dｊを探すことなので、類似度simを以下に定義する。これは、ベクトル空間におけるｑとDｊのなす角θが０に近いほど類似度が高いと考える方法。 • sim の大きい順に検索結果をに並べて質問者に提示する。

標準的な検索エンジン • Okapi（Robertson)のBM２５ • 原理的には，検索質問q と文書ベクトルdi が与えられときに，その文書が検索質問に適合している確率P(Rjq; di) を推計する • まずベクトル空間法におけるタームtのidf相当の部分w(t) • N:総文書数、nt:tの該当文書での出現回数

文書と質問qの類似度：Sim(d,q) tf:文書d中のタームtの出現回数 qtf:質問q中のタームtの出現回数 dl:文書長 Avdl：平均文書長 k1=1.2, k3=1000,b=0.75

パッセージ検索 • 文書の内容を特徴付けるのは文書全体よりはむしろ特定の部分 • ベクトル空間モデルを文書ではなく、文書の小さな部分、例えば段落、に適用。この小さな部分をパッセ―ジという。つまり、文書Dの代わりにパッセ―ジPkを使って、パッセ―ジ重みwikを計算し、ベクトル空間法を適用 • パッセ―ジの候補としては、　　１　固定長に分割したテキストの部分　　２　形式段落　　３　形式的な節、章

ベクトル空間法

ベクトル空間法

Presentation Transcript

Sea Ice

Sea Ice