1 / 28

文の構造を利用した文内ゼロ照応解析

文の構造を利用した文内ゼロ照応解析. 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学 {ryu-i,inui,matsu}@is.naist.jp NLP2006 3,15,2006. はじめに. 先行詞. 奈良、平安時代に中央政府の最北の出先機関だったとされる国史跡・秋田城跡に派遣された 役人 1 は、サケやマスなどを食材にした郷土料理は ( φ 1 ガ) 口にせず 、あくまで「関西風」の食事にこだわっていたことが ( φ 2 ガ) 分かった 。. ゼロ代名詞. ゼロ代名詞.

Télécharger la présentation

文の構造を利用した文内ゼロ照応解析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 文の構造を利用した文内ゼロ照応解析 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学{ryu-i,inui,matsu}@is.naist.jp NLP2006 3,15,2006

  2. はじめに 先行詞 奈良、平安時代に中央政府の最北の出先機関だったとされる国史跡・秋田城跡に派遣された役人1は、サケやマスなどを食材にした郷土料理は(φ1ガ)口にせず、あくまで「関西風」の食事にこだわっていたことが(φ2ガ)分かった。 ゼロ代名詞 ゼロ代名詞 • ゼロ照応解析:文章内のゼロ代名詞を検出し,ゼロ代名詞の先行詞を同定する処理 • 応用: 機械翻訳や情報抽出で必須の処理 • ゼロ代名詞: 述語と直接の係り関係にない必須の項を指す省略された要素 NLP2006 3,15,2006

  3. 発表の焦点 • ゼロ照応解析の問題を文内と文間で二つに分割 • 文内ゼロ照応 • 文間ゼロ照応 それぞれ捉える特徴が異なる • 文内の問題に関して文の構造情報を機械学習に基づく解析手法と統合することにより,解析精度の向上を目指す 統語的なパタンlocal topicの遷移 太郎は遅刻して(φガ)授業に遅れた。 そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。 私は近づくのを躊躇った。しかし、私が近くに行くと、とてもうれしそうに話を(φガ)してくれ、笑顔を見せてくれた。 談話の挿入global topicの遷移 NLP2006 3,15,2006

  4. 文内ゼロ照応その解析の手がかり • 文内ゼロ照応の例 • 統語的なパタンが手がかりとなる 太郎は遅刻をして(φガ)授業に遅れた。 並列節 NPが~して(φガ)~する。 NPはφの先行詞となりやすい 先生も遅れたので(φガ)怒られなかった。 主節と従属節 NPが~ので(φガ)~する。 NPはφの先行詞となりにくい (φガ)寝坊をして授業に遅れた太郎。 連体節 (φガ)~して~するNP  NPはφの先行詞となりやすい NLP2006 3,15,2006

  5. 先行研究 • 人手で作成した規則に基づく手法(村田ら 95, 田村ら 95 ,中岩ら 96 ) • センタリング理論(Groszら 95)などの言語学的な知見に基づく • 南(`74)の節間の主語同一性の分析を利用 • 統語的なパタンを網羅的に記述することは困難 • 機械学習に基づく手法(Soonら 01,関ら 01, Ngら 02, 磯崎ら 04, Yangら 05, 飯田ら 05) • 表層情報からわかる簡単な素性で規則ベースの手法と同程度の精度を得ている • MUCのCOタスク, ACE programのEntity Detection and Trackingタスクのデータを対象に着実に進歩している • 文内と文間を区別せずに処理している NLP2006 3,15,2006

  6. 提案手法 • 文内と文間を区別し,それぞれ個別に学習に基づく手法(探索先行分類型モデル (飯田ら, 05))で解析 • 文内の問題に関しては既存のゼロ照応解析で利用されている情報に加え統語パタンも同時に学習する NLP2006 3,15,2006

  7. 探索先行分類型モデル 村山首相 … 村山首相 独自 社会党 φ 村山首相 φ 最尤先行詞候補 村山首相 照応性判定モデル score ≧θ :照応性あり(文章内に先行詞を持つ) φ 照応解析の問題を2段階で解析 • 先行詞同定 • トーナメントモデル (飯田ら, 03) 2つの先行詞候補の間で勝ち抜き戦を行い先行詞を唯一に決定 • 照応性判定(先行詞が文章内にあるか否かを判定) 村山首相 トーナメントモデル 先行詞候補集合 八日 超党派 独自 社会党 … φ ゼロ代名詞 NLP2006 3,15,2006

  8. 提案手法 • 文内と文間を区別し,それぞれ個別に学習に基づく手法(探索先行分類型モデル (飯田ら, 05))で解析 • 文内の問題に関しては既存のゼロ照応解析で利用されている情報に加え統語パタンも同時に学習する • 文の構造をどのように表現するか • どのようにして構造から重要な統語パタンを抽出するか NLP2006 3,15,2006

  9. 文の構造の表現 、 punc たpast はtop てconj のbetween をobj がnom adnom をobj 訪米し 両国 外交 φ 方針 明らかにし 首相 推進する 先行詞候補とゼロ代名詞の間のパスを抽出 、 punc たpast はtop てconj がnom adnom をobj 訪米し φ 方針 明らかにし 首相 推進する • 文節を単位とした係り受け木で表現 • 文節間係り受け関係 = 機能語列 で近似的に表現 首相は訪米して、両国の外交を(φが)推進する方針を明らかにした。 NLP2006 3,15,2006

  10. 学習に利用する部分木への変換 先行詞候補とゼロ代名詞の間のパスを抽出 、 punc たpast はtop てconj がnom adnom をobj 訪米し φ 方針 明らかにし 首相 推進する • 内容語や機能語列をそのまま利用すると訓練事例が疎になる • 機能語列を各文節ノードの子に移す • 文節ノードの内容語の情報を削除する Ant LeftNode φ RightNode RightNode Node はtop てconj 、punc がnom adnom をobj たpast NLP2006 3,15,2006

  11. 先行詞同定で利用する部分木 • トーナメントモデルで利用する2つの先行詞候補とゼロ代名詞の3つの関係を1つの木で表現するのは困難3つのパスで表現 • 左側の候補とゼロ代名詞(赤色の線) • 右側の候補とゼロ代名詞(緑色の線) • 左側の候補と右側の候補(オレンジ色の線) 「首相」と「両国」が比較対象となる2つの候補の場合 、 punc たpast はtop てconj のbetween をobj がnom adnom をobj 訪米し 両国 外交 φ 方針 明らかにし 首相 推進する NLP2006 3,15,2006

  12. 先行詞同定で利用する部分木(Cont’d) L.LeftCand L.LeftNode L.φ L.RightNode L.Node L.RightNode L.adnom L.を obj L.はtop L.がnom L.た past L.てconj L.、punc R.RightCand R.RightNode R.φ R.Node R.のof R.を obj R.がnom R.adnom I.LeftCand I.LeftNode I.RightCand I.RightNode I.RightNode I.Node I.RightNode I.てconj I.、punc I.を obj I.を obj I.はtop I.のof I.た past I.adnom 左側の候補とゼロ代名詞(TL) 右側の候補とゼロ代名詞(TR) 左側の候補と右側の候補(TI) NLP2006 3,15,2006

  13. ゼロ代名詞と候補の関係を表す素性 3種の素性 • 述語単体: 文字列, 主節に存在するか, 埋め込み文の中か, 文末か, 態(“れる”,“られる”を含む) • 候補単体: 主辞の文字列, 品詞, 格助詞, NE, “人”, “組織”, 文頭, 文末, 主節にある, Center Listの順位, ランク • 述語と候補: 述語と候補の位置関係(前後), 語彙大系を利用した選択制限(2値), 大規模な共起情報を使った相互情報量(±を離散化) 、 punc たpast はtop てconj がnom adnom をobj 訪米し φ 方針 明らかにし 首相 推進する 先行詞候補 ゼロ代名詞が係る述語 NLP2006 3,15,2006

  14. 最終的に利用する訓練事例 照応性判定 ラベル:φが文内に先行詞を持つ +1φが文内に先行詞を持たない -1 root … T … 1 2 n 最尤先行詞候補とゼロ代名詞の間の部分木 先行詞候補とゼロ代名詞の関係を表す素性 • 先行詞同定 ラベル:左側が先行詞 +1右側が先行詞  -1 root … TR TL TI … 1 2 n 2つの先行詞候補とゼロ代名詞の間の部分木 先行詞候補とゼロ代名詞の関係を表す素性 NLP2006 3,15,2006

  15. ゼロ照応解析全体の解析手順 村山富市首相 先行詞候補集合 八日 超党派 独自 社会党 scoreinter≧θinter … 文間ゼロ照応解析モデル 文間の最尤先行詞候補NPjを先行詞に決定 φ ゼロ代名詞 scoreinter<θinter 照応性なし(φは外界照応) • 文内と文間を2段階で解析 scoreintra≧θintra 文内ゼロ照応解析モデル 文内の最尤先行詞候補NPiを先行詞に決定 scoreintra<θintra NLP2006 3,15,2006

  16. 目次 • ゼロ照応解析 • 先行研究 • 文の構造情報を利用した解析手法 • 評価実験と考察 • まとめと今後の課題 NLP2006 3,15,2006

  17. 評価実験 • 新聞記事コーパスに照応関係タグを付与(http://cl.naist.jp/~ryu-i/coreference_tag.html) • ゼロ代名詞タグ付与の一致率を調査 • 二人の作業者が137記事を対象にタグ付与 • ガ格のみ:作業者の一致率 84.6% (1670/1975) • 一人の作業者が別の60記事にタグ付与 • 197記事 2,352ゼロ代名詞 • 文内に先行詞を持つゼロ代名詞 : 995 • 文間に先行詞を持つゼロ代名詞 : 754 • 外界照応のゼロ代名詞 : 603 NLP2006 3,15,2006

  18. 実験の設定 • 5分割交差検定(ガ格のみを対象に) • 部分木の学習には部分木を素性とするブースティングを利用した分類手法: BACT(工藤ら, 04)を使用 • あらかじめ教える情報: • ゼロ代名詞の出現位置 • 述語と係り関係にある格関係,連体修飾の関係 • 対象となるゼロ代名詞以外の箇所のゼロ照応関係(他の箇所をうまく解析できた場合の上限を見る) • 比較する4つモデル NLP2006 3,15,2006

  19. 文内の解析精度(先行詞同定) • 先行詞同定の精度 • すでに解析精度の良いSCMに関しても統語的なパタンを学習することで解析精度が向上 NLP2006 3,15,2006

  20. 文内ゼロ照応解析の結果(照応性判定も含む)文内ゼロ照応解析の結果(照応性判定も含む) SCM_STR SCM BM_STR BM θintraを人手で動かし再現率-精度曲線を描く BM: Ngら(`02)のモデルSCM: 探索先行分類型モデル(飯田ら, `05) 正しく先行詞を同定できた数 正しく先行詞を同定できた数 精度= 再現率= 文内に先行詞を持つゼロ代名詞の総数 文内に先行詞を持つとシステムが判定したゼロ代名詞の総数 NLP2006 3,15,2006

  21. 全体の解析結果 緑色の線: 文内と文間を区別しない探索先行分類型モデル(統語パタンは学習しない)赤色の線: 提案手法 • θintraとθinterを変動させて再現率-精度曲線を描く -0.007 0.001 0.004 0.006 0.008 0.011 0.013 θintra= 0.017 0.024 閾値をうまく推定することで既存手法より精度が向上 NLP2006 3,15,2006

  22. 誤り分析(文内のゼロ照応解析) • 文内に直接引用を含む場合に解析を誤る場合が多い • 文の中に異なる談話が埋め込まれる • 文間ゼロ照応の問題に近い   談話の構造を考えなければならない 「選手はそのときの経験を生かしてくれた。(φiガ)言わなくても分かっていた」と古前田監督i。 緑色の候補: システムが出力した先行詞赤色の候補: φiの先行詞 NLP2006 3,15,2006

  23. まとめ • 文の統語的なパタンを学習し,そのパタンを分類に利用するゼロ照応解析モデルを提案した • 先行詞同定,照応性判定それぞれで既存手法より解析精度が向上することを示した NLP2006 3,15,2006

  24. 今後の課題 • 大規模データを利用した評価 • 京大コーパス報道2,320記事のタグ付与作業完了(今回利用したのは197記事のみ) • Kernel法を用いた場合との比較 • Tree Kernel (Collinsら, 01)や HDAG Kernel(鈴木ら, 03) • 文間ゼロ照応の解析に取り組む • 引用の中の現象を参考に • ゼロ照応の解析の順序を考える • ゼロ代名詞がどの箇所に補完されているかによって次の解析結果が異なる • 文章の解釈が最適になるように解く NLP2006 3,15,2006

  25. NLP2006 3,15,2006

  26. SCM_STRを引用の中と外で分けて評価 引用の外 SCM_STR 引用の中 • 引用の中の精度が極端に悪い NLP2006 3,15,2006

  27. 文内ゼロ照応解析とその解析の手がかり • 文内ゼロ照応の例 • 統語的なパタンが手がかりとなる • 構造情報を利用した一例(南, 74) 太郎は遅刻をして(φガ)授業に遅れた。 並列節 先生も遅れたので(φガ)怒られなかった。 主節と従属節 (φガ)遅刻をして授業に遅れた太郎。 連体節 NLP2006 3,15,2006

  28. 解析順序を考慮しなければならない問題の一例解析順序を考慮しなければならない問題の一例 首相は---------------------------------------------D         記者団に対し、-------------------------------------------D              「突然---D                   |    <LOCATION>大分</LOCATION>に-D                   | (φガ)帰ったが、---------------D           |                 温かい-D      |           |                  歓迎に-D     |           | (φガ)接し---------D           |                   『地元は-D   |           |                いいなあ』という-D  |           |                      感謝の-D |           |                      気持ちで-D           | (φガ)いっぱい。-----------------D  |                         期待に-D       |  | 応えて---D     |  |                          しっかり-D     |  | (φガ)頑張らないと-D    |  |                          いかんという-D   |  |                             気持ちを-----D  |                                一層---D  |                                 強く-D  | (φガ)持った」と---D                                  感想を-D                                  述べた。 解析の順序が問題となる NLP2006 3,15,2006

More Related