260 likes | 395 Vues
Support Vector Machine による日本語係り受け解析. 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座 工藤 拓 松本裕治. 係り受け解析. 日本語の統語解析の基本技術の1つ 二文節間の係りやすさを数値化した行列を作成し,文全体を最適化する係り受け関係を導出 人手による手法から、解析済みコーパスから統計的に求める手法へ. 統計的係り受け解析. 入力文節列. 係り先パターン列. 文節 i, j の言語的特徴を示すn次元素性ベクトル. 係り関係がすべて独立だと仮定. 従来手法の問題点(1). 慎重な素性選択が必要
E N D
Support Vector Machineによる日本語係り受け解析 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座 工藤 拓松本裕治
係り受け解析 • 日本語の統語解析の基本技術の1つ • 二文節間の係りやすさを数値化した行列を作成し,文全体を最適化する係り受け関係を導出 • 人手による手法から、解析済みコーパスから統計的に求める手法へ
統計的係り受け解析 • 入力文節列 • 係り先パターン列 • 文節 i, j の言語的特徴を示すn次元素性ベクトル • 係り関係がすべて独立だと仮定
従来手法の問題点(1) • 慎重な素性選択が必要 • 多くの素性を使用すると過学習してしまう • 最適な素性集合の選択は試行錯誤や人手に頼っている
例 従来手法の問題点(2) • 各素性の組み合わせ(共起,依存関係)を効率よく 学習できない • 共起選択の方法はさまざま,人手により発見的に選択 • 細かな依存関係を見ると…データスパースネス,計算量増加,過学習
Support Vector Machine(1) • V.Vapnik 95 • 入力素性数に依存しない汎化能力を持ち過学習しにくい • 計算量をほとんど変えることなく,素性どうしの組み合わせ(共起,依存関係)を含めた学習が可能
SVM(2) 線形2値(正例,負例)分類器,Euclid空間上の平面で分離 正例,負例,その他(マージン領域),の3つの領域に分割
マージンdが最大となる識別平面 マージン d を最大にするためには ||w|| を最小にすればよい SVM(3)
SVM(4) 以下の制約付き多項式の最適化問題に帰着 最小化: 制約条件: Lagrange乗数 αを導入して双対問題に変換 最大化: 制約条件: 最終的な識別関数
1 2 3 4 5 6 7 1 2 4 5 6 7 1,2 1,3 1,4 1,5 1,6 1,7 2,3 2,4 2,5 Kernel関数(1) 線形分離できない場合 各素性をの組み合わせを展開し,より高次元の素性ベクトル 空間に射影すれば線形分離しやすくなる
学習、識別は素性ベクトルの内積のみに依存した形学習、識別は素性ベクトルの内積のみに依存した形 Φを経由せずに簡単な演算で直接内積を計算できれば 計算量を大幅に減らすことが可能 K: Kernel関数 Kernel関数(2) 学習: 識別関数:
Kernel関数(3) 例 d次のPolynomial関数 2次元を6次元の空間へ写像,組み合わせの項も追加される d次のPolynomial関数はd個までの組み合わせを含めた学習
SVM(まとめ) • 入力素性数に依存しない汎化能力を持ち過学習しにくい • マージン最大化 • 計算量をほとんど変えることなく素性どうしの組み合わせを含めた学習が可能 • Kernel関数 • d個までの素性の組み合わせを考慮しながらその中で汎化能力を最大にする戦略 • Smoothingの効果が期待できる
SVMによる係り受け解析(1) • 正例,負例の与え方 係った事例 → 正例 学習データ中の 全係り受け候補 係らなかった事例 → 負例
SVMによる係り受け解析(2) • 係り受け確率 (Sigmoid関数) • 厳密には確率値ではない,距離を確率値に正規化,Sigmoid関数は確率へのよい近似を与えることが実験的に示されている (J.Platt 99) • 従来からある確率モデルの枠組で解析 • 関根99の文末からビームサーチを行う解析手法を採用
私は |この本を | 持っている| 女性を | 探している。 ? 「探している」の素性として「女性を」を追加 二重 を格 の可能性が取り除かれる 静的素性と動的素性 • 静的素性 • 2文節の主辞の語彙,品詞,2文節間距離など • 文節まとめあげの段階で決定される • 動的素性 • 係り関係そのもの,解析しながら動的に追加 • 動的素性も含めてビームサーチ
実験環境,設定(1) • 京都大学テキストコーパスVersion2.0の一部 • 学習データ 1月1日-8日 7958文 • テストデータ 1月9日 1246文 • 内元98と同じ学習データ,テストデータ • Kernel関数は,Polynomial関数,次元数 d=3 • Beam幅 k=5 • 評価方法 • 係り受け正解率 • 文末から2番目の評価含める (A) デフォルト, 含めない(B) • 文正解率
関連研究との比較 • 内元98との比較 • 最大エントロピー法に基づくモデル • 87.2%の精度 (本手法は89.1%) • 素性の組み合わせ(共起,依存関係)の重要性を指摘しているが,組み合わせは,人手により発見的に 選択,有効な組み合わせを網羅できない • 本手法はKernel関数の変更のみ, 網羅性, 一貫性という意味で優位
すべての候補から分類に必要な事例を選択 学習の効率化,解析の高速化 今後の課題 • 明らかに係らない制約を(人手により)導入 • 他の計算コストの少ないモデルとの融合 • 誤り駆動型による素性選択 全係り受け関係を用いるため,多くの計算量が必要
まとめ • 7958文という非常に少量のデータにもかかわらず,89.1%の高い精度を示す • SVMの持つ,高次元の入力に対して過学習しにくいという性質を裏付ける結果 • 係り受け解析は各素性の組み合わせ(共起,依存関係)が重要,SVMはKern el関数を使うことで効率性,網羅性,一貫性で優位