10 likes | 59 Vues
根拠情報抽出の 課題設計と予備実験. 2step: 帰結→根拠. 2step: 根拠→帰結. BM. 1step: 帰結→根拠. 1step: 根拠→帰結. 概要 意見や命題などの 根拠情報 抽出の問題を設計,そのタグ付きコーパスの構築した 作成したコーパス中の根拠情報を自動抽出する実験を行い,誤り事例について調査した結果を報告する. 東京工業大学 飯田 龍 . 奈良先端科学技術大学院大学 乾健太郎 松本裕治. 背景と目的. 解析の具体例.
E N D
根拠情報抽出の課題設計と予備実験 2step:帰結→根拠 2step:根拠→帰結 BM 1step:帰結→根拠 1step:根拠→帰結 概要 • 意見や命題などの根拠情報抽出の問題を設計,そのタグ付きコーパスの構築した • 作成したコーパス中の根拠情報を自動抽出する実験を行い,誤り事例について調査した結果を報告する 東京工業大学飯田 龍 奈良先端科学技術大学院大学 乾健太郎 松本裕治 背景と目的 解析の具体例 • 談話関係の仕様の発展とそのタグ付きコーパスの出現修辞構造理論(Mann&Thompson, 1988)の談話関係の定義に基づくタグ付きコーパス(Carlson et al., 2001), Hobbs(1985)の談話関係の定義に基づくタグ付きコーパス (Wolf&Gibson, 2005), Penn Discourse Tree Bank (Miltsakaki et al., 2004) • 命題間の関係の自動同定の必要性Web上に記述されたある内容に関して対立,含意,根拠関係を持つ内容を読み手に提示(e.g. 言論マップ (村上ら, 2008)) • 根拠-帰結関係を対象に自動同定の技術の確立を目指す 入力テキスト 昨日は○○というレストランに行ってきました。 ピザは焼き立てでおいしかったけど、パスタはあまりおいしくなかった。 もう行かないと思う。 読み手の判断に役立つ結果を出力 関連付けられた意見の断片を抽出 関連研究 Penn Discourse Tree Bank (Miltsakaki et al., 2004) 修辞構造理論 (Mann&Thompson, 1988) 主に明示的に出現している接続表現に対し,どのセグメントがどのセグメントと対応するかを接続表現の項としてタグ付与する 根拠関係タグ付与の際の基準 After[arg2 adjusting for inflation] the Commerce Department said [arg1 spending didn’t change in September] 隣接しない文間にはタグ付与しないなど網羅性の問題がある Wellnerら(2007)の解析手法: 談話セグメントを同定する代わりに各セグメントの係り受け構造の主辞を同定する(e.g. ‘adjusting’と ‘change’をそれぞれarg2, arg1として同定する) 根拠情報とすべきか否かは読み手が帰結箇所を信じるための情報の増加に影響するかどうかが重要視されている 根拠タグ付与の仕様 基準 1 原ら(2008)の事実性解析の技術を適用することで,例えば,実際に起こった行為の根拠を抽出する,などを想定 関係は広く原因・理由・動機・根拠・目的などを含めた関係に付与する (どのようなテンス・アスペクト・モダリティで出現していても抽出対象とする) • 帰結側の表現の種類によって根拠の種類が異なる • 帰結: 意見 「iPod touchに満足している」 根拠: ユーザの判断 「iPod touchが多機能である」 • 帰結: 命題 「内閣支持率が低下している」 根拠: 定量的な数値 「不支持が前回より9%増加した」 根拠: 不満の内容 「内閣の経済政策への不満が高 まっている」 • 帰結: 行為 「太郎が医者になった」 根拠: 動機 「病気で苦しむ人々を救いたい」 さまざまな関係が応用処理によっては必要となる 作業対象と作業経過 • 5億文コーパス(河原ら, 2006)を対象に • 文章に復元し9種類のキーワード(e.g. 捕鯨問題, 再販問題)を含む前後2文のみを付与対象に • 作業者1人, 2954の抜粋に対して作業 • 帰結4333箇所に対して根拠4350箇所タグ付与 基準 2 談話のセグメントは明示的に決定せず,各セグメント相当箇所の主辞間にタグを付与する e.g.) [焼き立て根拠, おいしい帰結], [おいしくない根拠, 行かない帰結] 最初から主辞間の関係を同定する問題として定義 自動抽出のモデル 素性 共参照解析のアナロジーで考える (Soon et al. 2001, Ng&Cardie 2002, Iida et al. 2005) 根拠(帰結)単体から抽出される素性文頭か否か,文末か否か,主辞の品詞, 主辞の見出し語,候補が述語か否か,候補文節内の機能語 帰結候補と根拠候補から抽出される素性 根拠(帰結)候補が帰結(根拠)候補に係るか否か,根拠(帰結)候補が帰結(根拠)候補より前に出現するか否か,帰結候補と根拠候補の間の係り受けのパス中の主辞の品詞とすべての機能語 • 根拠側から帰結を探すか? or 帰結側から根拠を探すか? • 帰結側から根拠を探す場合 その後、 19世紀末に 近代捕鯨導入とともに、 日本、 ロシアなどによる 朝鮮半島沿岸での 捕獲が 増加して もともと 多くなかった 群れの 急激な 減少を もたらした。 根拠候補間で比較を行い,最も根拠らしい候補を出力.次にその候補と帰結候補を用いて根拠-帰結の関係にあるかを判定 根拠候補が根拠になるか否かと帰結候補が根拠を持つか否かを同時に分類 1step:帰結→根拠 2step:帰結→根拠 ① その後、 その後、 の根拠-帰結関係同定モデルの出力するスコアが閾値より大きい場合に根拠-帰結関係として出力する 分類器の出力するスコアSが最も大きかった対 について,スコアが閾値より大きい場合はその対を出力.それ以外の場合は帰結候補は根拠を持たないと判断する 増加して 最尤根拠同定モデル 対 19世紀末に 19世紀末に もたらした。 ... ... 最尤根拠候補 根拠候補 根拠候補 増加して もたらした。 増加して 増加して 増加して • 根拠側から帰結を探す場合 ... ... 2step:根拠→帰結 1step:根拠→帰結 ※ , に ついても左図の根拠と帰結を入れ替えて同 様に解く ② 減少を 減少を 根拠-帰結関係同定モデル もたらした。 もたらした。 帰結候補 帰結候補 評価実験 誤り分析と今後の課題 • BMで解けない問題 • 誤りの約4割: 係り受け解析誤りの影響 • 誤りの約35%: 連用中止/テ形接続で出現「後継者が いなくなっていて根拠 困っているそうです帰結」「実態が 明らかにされ、根拠失望している帰結」 • 残り25%:倒置 「死刑制度を容認する帰結理由は...のため根拠」,理由を表す表現 「ドラフト制度の占める意義が大きいという根拠事を理由に...と考えた帰結」 などさまざまな問題を含む • 作業品質の調査と問題の再設計 • one-class SVMなどで解析対象の外れ値(つまり解析するのが現状で困難な事例)を探してさらに吟味する,など • 同一文内に出現している場合のみを対象に5分割交差検定 (タグ付与した全体の94%,4053事例) • 任意の文節の組み合わせが根拠-帰結関係であるか否かを判断する問題を解く 再現率-精度曲線 ベースラインモデル(BM):‘ため’,‘ので’,‘から’で係り受け関係となる2つの文節を抽出 帰結(根拠)が存在する場合の根拠(帰結)同定の精度 人手で整備された,もしくは自動獲得された述語間の関係知識を導入する必要がある