1 / 28

Foundations of Statistical Natural Language Processing 5. Collocations

Foundations of Statistical Natural Language Processing 5. Collocations. 米澤研究室 M1 増山隆 tak@yl.is.s.u-tokyo.ac.jp. 概要. Collocation とは Collocation を統計的に見つけ出す方法 Frequency Mean and Variance Hypothesis testing( 仮説検定 ) The t test Hypothesis testing of difference(using the t test)

leola
Télécharger la présentation

Foundations of Statistical Natural Language Processing 5. Collocations

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Foundations of Statistical Natural Language Processing5. Collocations 米澤研究室M1 増山隆 tak@yl.is.s.u-tokyo.ac.jp

  2. 概要 • Collocationとは • Collocationを統計的に見つけ出す方法 • Frequency • Mean and Variance • Hypothesis testing(仮説検定) • The t test • Hypothesis testing of difference(using the t test) • Pearson’s chi-square test • Likelihood ratios

  3. Collocationとは

  4. Collocation(連語) • 複数の単語が慣習的に結びついてひとつの表現になったもの(例 New York) • Compositional(部分から全体の意味が分かる)とは限らない 例kick the bucket (死ぬ) • 「結びつきやすさ」がある 例strong tea / powerful tea

  5. Firth vs. Saussure & Chomsky • Saussure & Chomsky • Collocationは無視されていた • 文、節の構造を重視 • Firth (Contextual Theory of Meaning) • Contextを重視 • 社会設定 • 会話の流れ • Collocation

  6. Collocationを統計的に見つけ出す方法

  7. 5.1 Frequency • 2語が続いて現れる回数を数える • 素朴 • そのまま行うと of the, in theのような興味のない結果が得られる(Table 5.1)

  8. Frequency + POS filter(Justeson and Katz 1995) • 句になりそうなPOSのパターンを与えておいて、そのパターンに合うものを抽出 cf. Table 5.2, 5.3 例 Strong tea and powerful tea • New York Timesには現れなかった • Webでの実験では799(strong)と19(powerful)であった • strong,powerfulどちらにも使える語に対してはより洗練された分析が必要

  9. 5.2 Mean and Variance(1/2)(Smadja 1993) • 2語が同時に出現するときの距離を分析 例 knock on his doorでのknockに対するdoorの距離は3 • 距離の平均と分散を算出 • 分散が小さいほうがよい

  10. Mean and Variance(2/2) • 結果はTable 5.2,5.4 • Window size 9 • 分散が小さいとき平均距離は0に近い (興味のないcollocation) • Smadjaは急激なピークのみをとりだした • だいたい80%の出来 • Collocationよりももっと緩い関係がわかる  例 knock と door

  11. 5.3 Hypothesis Testing(仮説検定) • ある2語が偶然隣り合うのか決まって隣り合うのかを調べたい • New companiesはnewもcompaniesも出現頻度が高いならば隣り合う確率も高い • H0 null hypothesis (帰無仮説) • 統計的に正しいか調べたい命題 • ここでは、「ある2語w1w2が偶然隣り合う」 P(w1w2) = P(w1)P(w2) .. 独立性で仮定

  12. The t test • 平均に関する検定によく使う • 信頼区間α: 棄却、採択の基準%(ここでは0.05) • w1w2が偶然隣り合うか?を検定 • 手順1.) 以下の式でt scoreを計算

  13. The t test 手順2) t分布表を見る  tの値が表の値より大ならばH0を棄却 積分値がαである点

  14. T testの計算例 • New companies • C(New) = 15828 • C(companies) = 4675 • N =14307668 (語の総数) • s2=p(1-p)~pを使用 (cf. 2.1.9) • t = 0.999932 • α=0.005の時の基準値は2.576(表を見る) • H0は棄却できない  ⇒New companiesは偶然並んだ

  15. The t testの結果と特徴 • 結果は表5.6 • 20回出現した2語のcollocation • 5.6はstop wordを含む ほとんどのbigramでH0(独立性の仮説)を棄却できた ⇒言語は予測できないことはほとんどおきない。 word sence disambiguationや確率的パーズの能力の裏付け • 信頼区間 αはそれほど重要ではない • Collocationのランク付けもできる

  16. Hypothesis testing of differences • 微妙に異なるcollocationの発見に使う  例) strongとpowerfulの違いを見るためにそれらの直後によく出現する語を見る • 二標本t検定 以下のWelchの近似を使う

  17. 仮説とt score • 帰無仮説H0は「両者に違いがない」こと。 • μ1-μ0=0 • 標本数は共通でN (Bernoulli試行をN回) • 以上を考慮してtを語数で表す

  18. Hypothesis testing of differencesの結果と応用 • 結果はTable 5.7 • Church & Hanks(1989) 内的性質と外的性質 • strong: 実際には力を持たないかもしれない。内的 • powerful: 実際に力をもつ。外的 • 文化的な側面のような微妙なところがある  例) strong tea, powerful drugはtea,drugの差 • 応用: 辞書作成 • 単語の微妙なニュアンスをつかむ

  19. Pearson’s chi-square test • ばらつき(分散)の検定 • t検定よりも適用範囲が広い • t検定.. サンプルが標準正規分布にしたがっていることを仮定 観測で得た表と 独立性を仮定した 表がマッチするか?

  20. χ2値と検定手順 • 式と見る表以外はt検定と同様 5.7式の導出は http://www10.u-page.so-net.ne.jp/dk9/mamewo/5.7.ps 参照 • new companiesはH0を棄却できない

  21. χ2検定の性質と応用 • t検定よりも適用範囲が広い • 応用1: ある単語の翻訳語を見つける(Church & Gale 1991) 例) vache(フランス語) と cow(英語) H0を棄却できれば、翻訳語だといえる • 応用2: 2コーパスの類似性の尺度(Kilgarriff & Rose 1998)

  22. Likelihood ratios(最尤比検定) • 直感に合う(?)方法 • 「現実の標本は確率最大のものが実現したものだ」と仮定(最尤原理) • 仮説 w1w2というbigramについて • H1 P(w2|w1) = p = P(w2|¬w1) • H2 P(w2|w1)=p1≠p2=P(w2|¬w1) H1は独立性の仮説

  23. Likelihoodのイメージ 真の確率pに近いほどlikelihood(最尤度)は高い

  24. Likelihoodの計算(1/2) • p,p1,p2を得られたデータから計算 • 二項分布を仮定(Bernoulli分布) • この値が当てはまりのよさを示す

  25. Likelihoodの計算(2/2) • ただし • -2logλは漸近的にχ2分布に従う(らしい)

  26. likelihood ratiosの結果と特徴 • 結果はTable 5.12 • 結果の解釈は直感的に出来る e0.5*(-2logλ)の値をみて、どれくらいの確からしさで棄却されたかが分かる • 出現回数が少ないbigramにも適用可能

  27. Relative frequency ratios • コーパスを特徴づけるcollocationを他のコ  ーパスたちと比較して見つける • 例 1990年、1989年のNew York Times cf. Table 5.131989年に頻出 1990年に2回 1989年の出来事、1990年に終わったコラム • ある特定分野向けのcollocationを見つける • 普通の文章と特定分野の文章を比較

  28. 参考文献 • 基礎統計学I 統計学入門 • 自然科学の統計学(p155に5.7式の導出) • 東京大学教養学部統計学教室編 • 雑なメモ http://www10.u-page.so-net.ne.jp/dk9/mamewo/natural_language.html

More Related