Support Vector Machine による日本語係り受け解析

Support Vector Machineによる日本語係り受け解析奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座工藤拓松本裕治

係り受け解析 • 日本語の統語解析の基本技術の１つ • 二文節間の係りやすさを数値化した行列を作成し，文全体を最適化する係り受け関係を導出 • 人手による手法から、解析済みコーパスから統計的に求める手法へ

統計的係り受け解析 • 入力文節列 • 係り先パターン列 • 文節 i, j の言語的特徴を示すｎ次元素性ベクトル • 係り関係がすべて独立だと仮定

従来手法の問題点(1) • 慎重な素性選択が必要 • 多くの素性を使用すると過学習してしまう • 最適な素性集合の選択は試行錯誤や人手に頼っている

例従来手法の問題点(2) • 各素性の組み合わせ（共起，依存関係）を効率よく学習できない • 共起選択の方法はさまざま，人手により発見的に選択 • 細かな依存関係を見ると…データスパースネス，計算量増加，過学習

Support Vector Machine（1） • V.Vapnik 95 • 入力素性数に依存しない汎化能力を持ち過学習しにくい • 計算量をほとんど変えることなく，素性どうしの組み合わせ（共起，依存関係）を含めた学習が可能

SVM(2) 線形２値（正例，負例）分類器，Euclid空間上の平面で分離正例，負例，その他(マージン領域），の３つの領域に分割

マージンdが最大となる識別平面 マージン d を最大にするためには ||w|| を最小にすればよい SVM(3)

SVM(4) 以下の制約付き多項式の最適化問題に帰着最小化：制約条件： Lagrange乗数 αを導入して双対問題に変換最大化：制約条件：最終的な識別関数

1 2 3 4 5 6 7 1 2 4 5 6 7 1,2 1,3 1,4 1,5 1,6 1,7 2,3 2,4 2,5 Kernel関数(1) 線形分離できない場合各素性をの組み合わせを展開し，より高次元の素性ベクトル空間に射影すれば線形分離しやすくなる

学習、識別は素性ベクトルの内積のみに依存した形学習、識別は素性ベクトルの内積のみに依存した形 Φを経由せずに簡単な演算で直接内積を計算できれば計算量を大幅に減らすことが可能 K: Kernel関数 Kernel関数(2) 学習：識別関数:

Kernel関数(3) 例 d次のPolynomial関数 2次元を6次元の空間へ写像，組み合わせの項も追加される d次のPolynomial関数はd個までの組み合わせを含めた学習

SVM（まとめ） • 入力素性数に依存しない汎化能力を持ち過学習しにくい • マージン最大化 • 計算量をほとんど変えることなく素性どうしの組み合わせを含めた学習が可能 • Kernel関数 • d個までの素性の組み合わせを考慮しながらその中で汎化能力を最大にする戦略 • Smoothingの効果が期待できる

SVMによる係り受け解析（1） • 正例，負例の与え方係った事例 → 正例学習データ中の全係り受け候補係らなかった事例 → 負例

SVMによる係り受け解析（2） • 係り受け確率（Sigmoid関数） • 厳密には確率値ではない，距離を確率値に正規化，Sigmoid関数は確率へのよい近似を与えることが実験的に示されている（J.Platt 99） • 従来からある確率モデルの枠組で解析 • 関根99の文末からビームサーチを行う解析手法を採用

私は |この本を | 持っている| 女性を | 探している。 ? 「探している」の素性として「女性を」を追加二重を格の可能性が取り除かれる静的素性と動的素性 • 静的素性 • 2文節の主辞の語彙，品詞，2文節間距離など • 文節まとめあげの段階で決定される • 動的素性 • 係り関係そのもの，解析しながら動的に追加 • 動的素性も含めてビームサーチ

実験環境，設定（1） • 京都大学テキストコーパスVersion2.0の一部 • 学習データ 1月1日－8日 7958文 • テストデータ 1月9日 1246文 • 内元98と同じ学習データ，テストデータ • Kernel関数は，Polynomial関数，次元数 d=3 • Beam幅 k=5 • 評価方法 • 係り受け正解率 • 文末から2番目の評価含める (A) デフォルト，含めない（B） • 文正解率

実験環境，設定（2）

実験結果（1）（d=3，k=5）

実験結果（2）（d=3，k=5）

動的素性の効果（d=3，k=5）

Kernel関数と解析精度

ビーム幅と解析精度

関連研究との比較 • 内元98との比較 • 最大エントロピー法に基づくモデル • 87.2%の精度（本手法は89.1%） • 素性の組み合わせ（共起，依存関係）の重要性を指摘しているが，組み合わせは，人手により発見的に選択，有効な組み合わせを網羅できない • 本手法はKernel関数の変更のみ，網羅性，一貫性という意味で優位

すべての候補から分類に必要な事例を選択 学習の効率化，解析の高速化今後の課題 • 明らかに係らない制約を（人手により）導入 • 他の計算コストの少ないモデルとの融合 • 誤り駆動型による素性選択全係り受け関係を用いるため，多くの計算量が必要

まとめ • 7958文という非常に少量のデータにもかかわらず，89.1％の高い精度を示す • SVMの持つ，高次元の入力に対して過学習しにくいという性質を裏付ける結果 • 係り受け解析は各素性の組み合わせ（共起，依存関係）が重要，SVMはKern el関数を使うことで効率性，網羅性，一貫性で優位

Support Vector Machine による日本語係り受け解析

Support Vector Machine による日本語係り受け解析

Presentation Transcript

Ch – 35 AC Circuits

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

The N2PK Vector Network Analyzer (N2PK VNA)

Multiple Kernel Learning

A Universal Turing Machine

Chapter 8 The X-ray Machine

Review of Vector Analysis

Protocolos de Enrutamiento por Vector Distancia

VECTOR CALCULUS

Training Exercises VERICUT for Pro/ENGINEER

Ch15 Support Vector Machines and Machine Learning on documents

This image is an example of:

GIS Lecture 2 Map Design

化學數學（一）

Integration in Vector Fields

Statistical Models in S

La variation de vitesse de la machine à courant continu

VECTOR CALCULUS

Scalar product of vectors

Semester 2 Module 7 Distance Vector Routing Protocols

SHRIRAM FOUNDRY LTD.MACHINE SHOP