230 likes | 554 Vues
小町守 (†) ・鈴木久美 (‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research. 検索ログを用いた意味知識獲得のためのブートストラップ手法. 自然言語処理合同研究会 2007@NAIST. キーワード検索は情報にアクセスする必須の手段 ユーザの興味を直接知ることが可能 アプリケーションには用語の意味カテゴリが重要. ポケモン 攻略法. 検索. 研究背景. ポケモンの攻略法 が知りたい. アプローチ. 半教師あり学習によって検索ログから意味カテゴリをブートストラップ 意味カテゴリ
E N D
小町守(†)・鈴木久美(‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research 検索ログを用いた意味知識獲得のためのブートストラップ手法 自然言語処理合同研究会 2007@NAIST
キーワード検索は情報にアクセスする必須の手段キーワード検索は情報にアクセスする必須の手段 ユーザの興味を直接知ることが可能 アプリケーションには用語の意味カテゴリが重要 ポケモン 攻略法 検索 研究背景 ポケモンの攻略法 が知りたい
アプローチ • 半教師あり学習によって検索ログから意味カテゴリをブートストラップ • 意味カテゴリ • ユーザがよく聞く対象 (cf. Pasca and Durme 2007) • 検索ログ • Webデータそのものよりユーザの関心を反映 • 短いが用語のカテゴライズには有効 • ユーザが(非明示的に)単語分割を指定 • ブートストラップ • 2項関係抽出のさまざまなタスクで適用 (Brin 1998; Collins and Singer 1999; Etzioni et al. 2005) • 少量のインスタンスから学習することができる (cf. Sekine and Suzuki 2007)
本研究による貢献 • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した • 単語分割の知識が不要
ブートストラップ手法 • シードインスタンスから始めて反復的にパターン導出とインスタンス抽出を繰り返す • ある関係にある少量のシードを増やすことができる コーパス (検索ログ) 用語リスト 文脈パターン ポケモン ポケモン+攻略法 #+攻略法 ドラクエ ドラクエ+攻略法 #:スロット +:空白文字 ff ff+攻略法
インスタンスの検索と文脈パターン抽出 • 文脈パターンをスコアリングして上位のものを選択 • 先行研究ではジェネリックパターンの扱いが異なる ana ana+予約 #+予約 実際の検索ログ 抽出パターン インスタンス インスタンス以外の文字列を文脈パターンとして使用=単語分割が不要 高適合率・低再現率
インスタンス・パターンの尺度 • Sekine & Suzuki (2007) • Basilisk (Thelen and Riloff, 2002) ジェネリックパターンには低いスコアを割り当て、処理をスキップ ジェネリックパターンの再現率と適合率のちょうどいいところを求めるヒューリスティクス
Espressoアルゴリズム • Espresso (Pantel and Pennacchiotti, 2006) • 少量のシードインスタンスからスタート • 以下のステップを反復 • パターン導出 • パターンのランキングと選択 • インスタンス抽出 インスタンスとパターンの信頼度は相互に再帰的に定義
Espresso アルゴリズムの問題点 • ジェネリックパターン・インスタンスの取り扱い • Espressoで提案されている確信度(confidence)の尺度は検索ログデータではうまく行かなかった • ジェネリックパターンは多数のインスタンスと共起するので計算量が大きい • 計算の効率 • Espressoでは全てのパターンの信頼度を毎回計算する
Tchaiアルゴリズム • ジェネリックパターンやインスタンスのフィルター • ジェネリックパターン・インスタンスは単に用いない • 反復初期の適合率の向上に貢献 • 信頼度の係数を修正 • 全てのインスタンスとパターンの間の最大 PMI を使うのではなく、あるインスタンスに対する全てのパターン・あるパターンに対する全てのパターンの間の最大 PMI を使う • この修正がもっとも性能の改善に効果があった • 性能の改善 • 最初のステップのときだけパターン導出を行う • TchaiはEspressoと比較して400倍高速に動作するように
実験 • 日本語の検索ログ 2007/01-02 • ユニーク 1M (異なりで 166M) • ターゲットとするカテゴリ • 検索ログで頻度トップ10,000クエリを人手で23カテゴリに分類したリストを使用 (2006/12のログから作成) • 旅行: 一番大きいカテゴリ (712 用語) • 金融: 一番小さいカテゴリ (240 用語)
実験結果 高適合率 (92.1%) 251の新しい用語を獲得 旅行 金融 人手の分類の曖昧性 旅行の一般用語も含む
抽出できたインスタンスの例 シードが与えられていないサブカテゴリも学習
パターン導出を省いた影響 パターン導出を省いても性能低下は見られず
各変更の影響 フィルタリングしたものはコンスタントにフィルタリングなしを上回った 係数に対する変更がもっとも適合率に影響
システムの相対再現率 旅行 金融 高適合率・高再現率 強いフィルタリングのために適合率は高いが再現率は低い 相対再現率 (Pantel et al., 2004)
累積適合率: 旅行ドメイン Tchaiが適合率最高
累積適合率: 金融カテゴリ BasiliskもEspressoも反復初期にジェネリックパターンの影響で低適合率
抽出パターン BasiliskとEspressoは両方とも地名を文脈パターンとして獲得しているが、旅行ドメインにはあまり特徴的ではない Tchaiは旅行ドメインに特徴的な文脈パターンを発見することができた
今後の方向 • ブートストラップの解析的な意味づけ • リンク解析との関係(工藤さん) • カテゴリ中のサブタイプを分類 • 現在は人手でやっているが自動でやりたい
まとめ • 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた • 汎用的なEspresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した • 単語分割の知識が不要
Tchai IJCNLP 2008: Hyderabad, India 本研究を可能にしてくれたマイクロソフト・リサーチのインターンシップ、NLPグループのみなさん、Dmitriy Belenko, Christian Koenig両氏に感謝いたします。 ご静聴ありがとうございました