280 likes | 386 Vues
アノテーション時の作業者の振舞いの収集とその分析 飯田 龍,光田 航,徳永 健伸 東京工業大学. SIGNL 213 (2013 年 9 月 12 日 ). 背景 : 人手に よるアノテーション. さまざまな自然言語処理の問題に対し,機械学習に基づく手法を適用するために必要となる課題 浅い処理 : 品詞タグ付与,名詞句チャンキング 機械学習に基づく手法の効果的に適用できている 語や品詞などの表層的な情報を問題解決に役立つ素性として 容易に導入できる 深い処理 : 共参照解析,談話構造解析 深い言語的な知識が問題解決のために導入されている
E N D
アノテーション時の作業者の振舞いの収集とその分析飯田 龍,光田 航,徳永 健伸東京工業大学 SIGNL 213 (2013年9月12日)
背景:人手によるアノテーション • さまざまな自然言語処理の問題に対し,機械学習に基づく手法を適用するために必要となる課題 • 浅い処理: 品詞タグ付与,名詞句チャンキング • 機械学習に基づく手法の効果的に適用できている • 語や品詞などの表層的な情報を問題解決に役立つ素性として容易に導入できる • 深い処理: 共参照解析,談話構造解析 • 深い言語的な知識が問題解決のために導入されている • WordNet,センタリング理論のような言語理論から得られる知見 • 応用処理で利用できるほどの解析精度を得ていない • どういう知見をどう導入すれば問題が解決するのか自明ではない
アノテーション作業者の振舞いに基づく認知科学的なアプローチアノテーション作業者の振舞いに基づく認知科学的なアプローチ • アノテーション時の作業者の振舞いを調査 • 動機: 振舞いを分析することで,深い言語的な知識が必要となる問題で役立つ情報を明らかにしたい • アノテーション時の作業者の視線の動きに着目 • 視線追跡技術の発展 • 視線データは心理言語学や問題解決 (Duchowski, 2002) の分野で広く利用されている • 自然言語処理の分野 • Tomanekら (2010): 固有名アノテーションの難しさを推定するために視線の動きを手がかりとする
本研究のねらい • アノテーション時の作業者の振舞い(アノテーションの操作,視線の動き)を収集するための実験環境を設計する • 自然言語処理のある問題の解析に役立つ情報を明らかにするために,アノテーション作業者の振舞いを分析する • 調査対象: 日本語の述語項構造アノテーション • ゼロ照応関係もアノテーションする必要があるために,アノテーション作業は比較的難しくなる • 述語項構造に特徴的な視線の動きが観測できる可能性がある
発表の概要 • アノテーションの振舞いを分析する動機 • 日本語の述語-項関係アノテーションの課題設計,アノテーションの振舞いを含むデータの収集 • 収集したデータを利用した人手分析
アノテーション課題: 日本語の述語-項関係のアノテーション • 文章中の述語(原形)の必須項(ガ格,ヲ格,ニ格)のアノテーション • 述語と項候補のセグメントはあらかじめ自動解析の結果に基づいてアノテーションしておく トムは公園に行った。 そこで、 ジョンに 会った。 ガ格 (φガ) ヲ格 ニ格
アノテーションツール: Slate修正版(Kaplan et al. 2012) ガ格 ヲ格 ニ格
記録するアノテーションイベント • 7種類のイベント: イベントの生起時間と関連するセグメントの情報とともに記録する
アノテーションの環境 • 作業に関する装置 • 視線計測装置Tobii-T60 • 顎台 • キーボード • リンクの種類を選択:ガ格,ヲ格,ニ格 • マウス • 述語とその項の間の関係を作成する
データ収集の実験設定 • 3人のアノテーション作業者を雇用 • 述語-項関係のアノテーション経験あり • データ: BCCWJ(Maekawa et al. 2010) のPBコーパス 43記事 • 事前にアノテーション作業を行い,述語-項関係が局所的な場合のみ出現している記事を除外 • 画面のスクロールが起きないように,画面に配置された記事の一部(約1,000文字)のみを作業対象とする
3人のアノテーション作業者の作業結果 • 我々の分析では,述語とその項の両方が注視されていることが条件となる 分析に利用可能な事例が半減(全体選別後)
収集した視線データの具体例 • 注視: I-DTアルゴリズム(Salvucciら, 2000)に従って検出 (BCCWJ PB49_00305)
発表の概要 • アノテーションの振舞いを分析する動機 • 日本語の述語-項関係アノテーションの課題設計,アノテーションの振舞いを含むデータの収集 • 収集したデータを利用した人手分析
アノテーション過程の分割 • 3つの段階に分割 (Russoら, 1994) 対象述語への最初の視線滞留 リンク付与される項への最初の視線滞留 リンク作成 time 評価段階 適応段階 確認段階 与えられた文章を読み,文脈を理解する 述語との関係を考えながら,項候補の中から項を探索する 述語-関係を確認するために周辺文脈を見回す
アノテーション過程の分割 • 3つの段階に分割 (Russoら, 1994) 対象述語への最初の視線滞留 リンク付与される項への最初の視線滞留 リンク作成 time 評価段階 適応段階 確認段階 • 解析に役立つ素性を発見するためにもっとも有益な分析対象 • 評価段階の注視された項を考慮するだけでは不十分 • 作業者は適応段階でも述語の項を概観しているため
アノテーション過程の分割 • 3つの段階に分割 (Russoら, 1994) 対象述語への最初の視線滞留 リンク付与される項への最初の視線滞留 リンク作成 分析対象 time 評価段階 適応段階 確認段階 • アノテーションする項は決定しており,対立候補を調べる段階 • 確認段階で考慮に値する対立候補が明示的に注視される • 確認段階の範囲は収集したデータから決定できる • 確認段階のみを分析対象に
分析のための2つの観点 • 確認段階におけるアノテーション作業者の視線の動き • 文字単位の述語とその項の距離
1. 確認段階の視線の動き • Concentrated: アノテーションされる項への最初の注視の後,注視が述語とその項のみに集中する • Distracted: 対立候補も注視する 人から好かれたいと強く願う人が陥りがちな失敗として、人の顔色をうかがってしまうことがあげられます。始終びくびくして、人の顔色を見、自分の発言の中で何か人を傷つけるようなことをいわなかっただろうか、自分の態度はふさわしいのだろうか、それで嫌 項 願う 強く 顔色 人 人 失敗 うかがっ 好か 人 こと あげ 顔色 自分 発言 びくびくし 中 人 傷づける 人 何 対象述語 いわ 態度 ふさわしい こと 自分 それ
2. 述語とその項の距離 • 仮説: アノテーション作業者の振舞いは述語とその項の距離によって異なる • 距離をNearとFarタイプに分類 22(全事例の距離の平均) Far Near DistractedとConcentratedの割合 述語と項の距離
3つの観点から分析 • 述語と項の距離と項の格の関係 • 事前にアノテーションされたリンクの影響 • 項の特定性と視線の分散
1. 述語と項の距離と項の格の関係 • 項の格ごとにその振舞いが異なるのか調査 • Far の90%がガ格 • ガ格は頻繁に省略されるため,距離が遠くなる • ヲ格・ニ格は省略されにくいため,Farとしてほとんど出現しない 述語項構造解析では,格ごとの特徴を考慮して個別に扱 う必要がある
1.述語と項の距離と項の格の関係(Cont’d) • ConcentratedとDistractedの分類がNearとFarの分類に影響を与えるのかを調査 • 結果: Concentratedとdistractedの分類は項の種類の分布に影響しない • ガ格: 述語と項が離れている場合でも,確認段階で他の対立候補を注視せずに確認が完了する場合がある
2.事前にアノテーションされたリンクの影響 • 過去にアノテーションした結果はリンクとして作業者に見えてしまう • 例: 述語Pと項Aの関係を付与する際,項AにはSLに示された6つのリンクが存在 これらのリンクが視覚的・認知的に項の顕現性を向上させることになる SL A P
リンク数と対立候補への視線滞留数の関係 • Far事例のみを分析 • 事前にアノテーションされたリンク数が多い 対立候補への視線滞留数が減る • 視線滞留数が増える アノテーションされているリンクが少ない • 視覚的・認知的な顕現性がアノテーション作業者の認知的な負荷を軽減 効率的に正しい項を 確認できる 事例数 対立候補への視線滞留数 事前にアノテーションされているリンク数
3.項の特定性と視線の分散 • アノテーションの課題設計に依存した問題 • 名詞句の主辞となるセグメントのみをアノテーション対象としている • 例) 勉強する こと • 問題: 項の主辞だけで確認作業ができるとは限らない • 修飾要素を含む名詞句全体を把握することが項としてアノテーションできるか否かを判断するために必要となる アノテーション対象のセグメント 名詞句
視線の分散に関する調査:名詞句の主辞を対象に視線の分散に関する調査:名詞句の主辞を対象に • 名詞句の修飾要素を持つ項を2つに分類 • 注視がアノテーションされた項が主辞となる名詞句の中のみ出現する • 注視がa)の範囲の外にも出現 • 修飾要素を持つDistracted事例の22%(242事例)が名詞句の中のみ注視が出現 • 項候補が修飾要素を持つか否かを考慮すべき • 名詞句の主辞に加え,修飾要素の情報をどのように扱うかを検討しなければならない
まとめ • 目的: 言語処理のタスクで有益な情報を明らかにするために,アノテーション時の作業者の振舞いの分析 • 3人のアノテーション作業者の視線とアノテーション操作を収集するための実験を設計 • 日本語の述語-項関係のアノテーション課題 • 収集したデータを3つの観点から分析 • 述語と項の距離と項の格の関係 • 事前にアノテーションされたリンクの影響 • 項の特定性と視線の分散の関係
今後の課題 • 収集したデータを使った他の観点からの分析 • テキストマイニング技術を用いてアノテーション時に頻出する振舞いを発見する(例: ある問題に関する有効な視線のパタンを発見する) • 本研究で得られた知見を述語項構造解析のモデルに導入し,その有効性を調査する • 適応段階,評価段階におけるアノテーション作業者の振舞いも調査する • 評価段階には,項を探すための手がかりとなる振舞いが含まれていると考えられる • この調査を行うために必要となる実験設定についても検討する必要がある