1 / 26

微小時間における日本語の変化とその法則

微小時間における日本語の変化とその法則. 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ. 現代日本語で頻出する 1000 語のうち万葉集において見られるものは 326 語 [ 宮島 1967]. 32.6%. 使用頻度. 時間. 平安時代. 現代. 現代 +Δt. 常用語は固定化されほとんど順位が変化しない. 境界は どこか ?. 非常用語ははげしく 順位が入れ替わる. はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はあるか ? 」 まとめ. 材料.

Télécharger la présentation

微小時間における日本語の変化とその法則

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 微小時間における日本語の変化とその法則 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター **科学技術振興機構 さきがけ Mar. 9, NLP2011

  2. Mar. 9, NLP2011

  3. 現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967]現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967] 32.6% 使用頻度 時間 平安時代 現代 現代+Δt Mar. 9, NLP2011

  4. 常用語は固定化されほとんど順位が変化しない常用語は固定化されほとんど順位が変化しない 境界は どこか? 非常用語ははげしく 順位が入れ替わる Mar. 9, NLP2011

  5. はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はあるか?」 • まとめ Mar. 9, NLP2011

  6. 材料 • Twitterクロールデータ約30億tweet • 全データを形態素解析器(juman)にて解析 • 1日毎に過去30日の語の使用頻度を集計した • スライド単位=1日,ウィンドウ幅=30日 • 本稿では形態素を語とみなす • 相対頻度(対象となる形態素頻度/すべての形態素頻度)で正規化 • 日によってクロール稼働率が異なるため Mar. 9, NLP2011

  7. 2つの指標 • N位保存率 • ある時期でN位以内にいた語がΔt経過後にもN位以内にとどまる割合 • 順位相関係数(スピアマン) • 基準期間で上位N位以内の語の順位(の系列)がΔ t時間経過後の順位とどれくらい類似しているか Mar. 9, NLP2011

  8. N位保存率(Y軸)とΔt(8ヶ月)論文図表 Mar. 9, NLP2011

  9. N位保存率(Y軸)とΔt (1.5年)最新結果 Mar. 9, NLP2011

  10. 順位相関係数とΔt Mar. 9, NLP2011

  11. Δt経過後(Δt=180日)に成長した語と衰退した語 Mar. 9, NLP2011

  12. どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日)どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日) 時間T+Δtでの相対頻度 Δt経過後に頻度aとなった語が もともと基準期間にどのような 頻度であったかの確率分布 基準期間で頻度aであった語が,Δt経過後にどのような頻度に変化しているかの確率分布 時間Tでの 相対頻度 Mar. 9, NLP2011

  13. 詳細釣り合い(detailed balance) • ある過程の起こる確率とその逆過程の起こる確率が等しい状態 • 企業の成長や気体分子の運動などに見られる • 言語の頻度変化で詳細釣り合いが成り立つ範囲 • 相対頻度2.5e-5より大きい語(使用頻度上位4000語) • 語の頻度分布の形は時間の経過とともに変化しない • 現時点での言語がZipf則にしたがっているなら今後も従い続ける Mar. 9, NLP2011

  14. はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はあるか?」 • まとめ Mar. 9, NLP2011

  15. 具体的には 使用頻度 語彙が 安定している領域 常用語 語彙が 不安定な領域 新語 死語 時間 Mar. 9, NLP2011

  16. 語の成長率とその分布 • ある語がどれだけ使用頻度を増やしたか Δt経過後の語wの相対使用頻度 語wの成長率= 基準期間での語wの相対使用頻度 • 成長率分布 (例:使用頻度1位~10位まで) 頻度 成長率 1 0.5 2 Mar. 9, NLP2011

  17. 成長率の定義 使用頻度 語彙が 安定している領域 成長率=1 成長率=2 語彙が 不安定な領域 成長率=0.5 時間 Mar. 9, NLP2011

  18. 語の成長率の分布 (Δt=30日)高頻度から1000位毎にプロット Mar. 9, NLP2011

  19. 成長率の分布が同じということは 使用頻度 語彙として安定する境界というものはない どんな頻度であっても入れ替わりが起こりうる 高頻度ほど大きな頻度変化を起こしやすい 10回→30回≒ 10000回→30000回 時間 Mar. 9, NLP2011

  20. はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はあるか?」 • 関連研究 • まとめ Mar. 9, NLP2011

  21. 関連研究との差異 • 語全体の調査 • あらかじめ注目していた語について,その振る舞いを調査[宮島1967,飛田1966] • 本研究では,すべての語での調査を行うため,バイアスがかからず,全体的な挙動を知ることができる. • 微小時間の調査 • いくつかの大規模調査(大西調査[5]や凸版調査[6]など)では10年またはそれ以上の期間が対象 • 本研究は日単位という微小時間での使用頻度の連続的変化を調査 Mar. 9, NLP2011

  22. はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はあるか?」 • 関連研究 • まとめ Mar. 9, NLP2011

  23. 現代日本語で頻出する1000語の1年後でも同順位に入っているものは80%現代日本語で頻出する1000語の1年後でも同順位に入っているものは80% 32.6% 80% 使用頻度 時間 平安時代 現代 現代+Δt Mar. 9, NLP2011

  24. まとめ • 語の使用頻度は平衡状態を保ちながら言語全体で変化している • 詳細釣り合い状態(時間について対象な状態) • 語の使用頻度の変化は順位に依存しない • 高頻度語も低頻度語も次の瞬間には同様な変化をしうる Mar. 9, NLP2011

  25. 本研究の限界 • 一般的な議論を行うためには,さらなる長期観察が必要である • 語が変化したのではなくユーザが変化した可能性は? • ツィッター上の発言(文書における話し言葉)以外の伝達形式においても本研究での知見が共通するかどうかは不明 Mar. 9, NLP2011

  26. 謝辞 京都大学遠藤智子氏 産業技術総合研究所黒嶋智美氏 金沢学院大学石川温先生 クックパッド兼山元太氏 荒牧英治 eiji.aramaki@gmail.com Mar. 9, NLP2011

More Related