言語情報を利用したテキストマイニング

言語情報を利用したテキストマイニング 奈良先端科学技術大学院大学情報科学研究科工藤　拓　　山本　薫　坪井　裕太　松本　裕治

本発表の目標 • 構文解析された文の集合から頻出する部分木を抽出 • 部分木のサイズに制限を設けない • 巨大なコーパスに対し，高効率,スケーラブルである必要 a a c a d b c d c d a a a a d c b c c d a a b c c d 頻出する部分木の抽出 (頻度2回以上) 構文木の集合

映像は良いが 　　音声は悪い映像　　良い　　音声　　悪い？映像は悪いが　　音声は良いテキストを単語の集合として表現　 (Bag of Words) テキストマイニング(1/2) • 文書分類，クラスタリング，単語共起の抽出 • これまでのテキストマイニングの多くは… テキストが持つ意味のある構造が捉えられない

形態素解析 単語同定チャンキング係り受け解析構文解析済みテキストマイニングアルゴリズム構造化された知識 (頻出する部分構文木) 半構造テキストマイニングテキスト形態素解析単語同定単語の集合マイニングアルゴリズム　　　　　　知識 (頻出する単語の共起)

a:4 b:3 c:3 a b:2 a c:2 マイニング結果シーケンシャルパターンマイニング(Agrawalら94) 系列 sid 1 a c d アイテム 2 a b c 3 c b a 最小サポート値 = 2 4 a a b 系列データベースＳ • 系列データベースＳで　 (最小サポート値)　回以上の系列　に出現する部分系列を完全に列挙 • 自然言語処理: アイテムを単語，系列を文，テキスト中の　　回以上の文に出現する単語の列を列挙

射影 2 c 1 c d a:4 b:3 c:3 d:1 a:1 b:2 c:2 a:1 c:1 c:1 d:1 a:1 b:1 d:1 2 b c 4 a b 1 d 2 c 3 a a:4 a b:2 a c:2 b:2 c:3 1 d 3 b a 結果 PrefixSpan (Peiら 00) 系列 sid 1 a c d 2 a b c 3 c b a 4 a a b 最小サポート値=2

b-r1 a b は r1 の関係 b-r2 a b は r2 の関係 b-r3 a b は r3 の関係 • 射影の詳細化 • a b が構造的に関係 r を持つ • b で射影せず， b-r (アイテム名-関係名で射影) PrefixSpan の拡張(1/2) 射影? a b • 射影の制約 • 隣接するアイテムのみ　射影（N-gram) • 係り関係のみ • 言語制約（機能語の連続は考慮しない • 頻度以外の制約の導入

PrefixSpan の拡張(3/3) sid 系列関係関数 1 a c d a 2 b a c b 3 b c b a 4 b a c d S • S 中の系列 sid の i番目と j番目のアイテムの関係(rel)を返す • アイテム-関係関数の返り値(rel) で射影 • 返り値がεの場合は射影を行わないと定義 • 関係関数の実装により半構造化データ，言語的制約を表現 • 具体例 (N-Gram,チャンク,係り受け)

係り受け(1/2) • 日本語は比較的語順が自由 • 係り受けを考慮することで，意味的に同一で語順の異なる文を同一視 • 係り関係木の正規化 f f e e d a a d c b b c

係り受け(2/2) • 係り元(i)の係り先(j)からみて k(k>=0)代目の子孫であるとき(i,j)の関係名を k と定義, それ以外はε • 係り受け木→系列 ε f e 0 a b c d e f ((a (b (c d)) e) f) a 1 d i 2 2 1 0 ε b 2 c 2

1 c-0 d-ε 1 d-0 b-1:1 c-0:3 a-0:2 c-0:1 a:4 b:3 c:4 d:1 b-0:1 d-0:1 c-0:1 d-0:1 2 b-1 c-0 0 ε 4 c-0 1 0 1 c-0 2 c-0 0 a-0 3 a:4 a c-0 :3 b:3 b a-0 :2 c:4 4 a-0 c-ε 1 d-0 結果 3 b-0 a-ε 係り受け(3/3) 系列 1 ((a c) d)) 2 (a (b c)) 3 ((c b) a) 4 ((b a) c) 最小サポート値=2

実験 • 新聞記事　(京都大学コーパス3.0　約38,000文) • 小説 (「我輩は猫である」全文約 9,000文) • ChaSen,CaboChaを用いて形態素，係り受け解析 • 構造　 • 文節をアイテムとする係り受け構造

実験結果 • ((ついて　述べ,) (記者会見で明らかにした)) • ((各地の　震度は)　(次の　通り)) • (ことが　(調べで分かった)) • (休養を (また　(我輩は要する))) 　　新聞記事に頻出する定型表現が抽出できた

応用例: 対訳パターン抽出 英語日本語単純に連結 J1 J2 J3 ….. Jn E1 E2 E3 ….. Em 単言語間はその言語の構造で規定される関係関数二言語間はすべての射影を許可 • 共起する構造化パターンの抽出 • Dice 係数,相互情報量等で順位付け

まとめ • 自然言語処理ツールを利用し，その結果得られた半構造化テキストデータに対するマイニング手法を提案 • PrefixSpanに対し，「関係関数」を導入, 種々の言語的な情報を反映した半構造化データに対するマイニング手法の提案 • 対訳パターンの抽出に利用できる可能性を提示

今後の課題 • 抽出されたパターンの客観的有効性の評価 • 対象とする構造，関係関数の違いにより，具体的な応用でどういった差があるか評価 • グラフ構造に対する関係関数の記述方法 • 完全性，健全性の議論

ご静聴ありがとうございました PrefixSpanの C++ による実装は http://cl.aist-nara.ac.jp/~taku-ku/software/prefixspan/ にて入手可能です

チャンク(2/3) 友達と京都に行って，ラーメンを食べた　行く {友達, 京都} 食べる {ラーメン} それぞれ辞書式にソート { {

実験結果

データマイニング • 膨大なデータから有益，興味のある，思いがけないデータを明示的な知識として発見 • 膨大なデータから頻出する部分パターンの発見 • 膨大なデータに対してスケーラブルである必要性 • バスケット分析 • 顧客の購買分析　　　　　　　　　　　　　　　　　　　　　　　　　（ソーセージを買う人はロールパンを買いやすい）

応用例1: 機械学習の素性抽出 • 半構造化データに対し，クラス　　　ラベル(+1,-1)が付与 • 半構造化データの部分パターンを　　素性として選択 • 単純にクラスとデータを連結 • クラスラベルと部分パターンの　　　共起度（相互情報量，dice係数)の　高いパターンを素性として選択 ((a b) (c d)) +1 -1 +1 +1 -1 .. (c (b (e f))) (a (c (d e))) ((a c)(d e)) (c (a (b e)))

マイニングの手法 • 幅優先 (Apriori) • 候補生成-テスト • データーベースを何回も捜査する必要がある • 深さ優先 (FP-Tree, PrefixSpan) • 分割統治法 • 並列性，メモリの使用量が少ない

応用例: 対訳パターン抽出(2/2) • 実験 • 日英対訳コーパス 9268文 • 構造: 系列, N-gram　(機能語相当は考慮しない) • 系列 52分, N-gram 7秒で全候補パターンを生成 • 系列にて発見されたパターン • earliest convenience 都合　つき　次第 • let …..know お知らせ • thank ….letter 手紙　ありがとう • 連続しない単語の翻訳パターンが抽出

言語情報を利用したテキストマイニング

言語情報を利用したテキストマイニング

Presentation Transcript