1 / 25

TYPO Writer ヒトはどのように打ち間違えるのか?

TYPO って?. TYPO Writer ヒトはどのように打ち間違えるのか?. 荒牧英治 東大 宇野良子 農工大 岡瑞起 東大. まだ間違いに気が付いていないのか ?. TYPO が致命的な場合も 日本看護協会の告知 [Dec2008] より. TYPO の特徴. 従来のコーパス(新聞や論文)ではまれ BUT: 例外的現象ではない. 人間ならだれしも行う 平均 3% の割合で打鍵ミス エキスパートでも 0.9% [Grudin1983]. チャットやマイクロブログ カルテ文章= ungrammatical fragmented [Sibanda 2005].

sage
Télécharger la présentation

TYPO Writer ヒトはどのように打ち間違えるのか?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TYPOって? TYPO Writerヒトはどのように打ち間違えるのか? 荒牧英治 東大 宇野良子 農工大 岡瑞起 東大

  2. まだ間違いに気が付いていないのか?

  3. TYPOが致命的な場合も日本看護協会の告知[Dec2008]よりTYPOが致命的な場合も日本看護協会の告知[Dec2008]より

  4. TYPOの特徴 • 従来のコーパス(新聞や論文)ではまれ • BUT: 例外的現象ではない 人間ならだれしも行う 平均3%の割合で打鍵ミス エキスパートでも0.9% [Grudin1983] チャットやマイクロブログ カルテ文章=ungrammatical fragmented [Sibanda 2005] • 記述者は気づきにくい→ いったいヒトはなぜタイポをするのか?

  5. 本研究の2つの課題 • いったいなぜ/どのようにタイポするのか 主課題:タイポの分析 • BUT: 従来のコーパス(新聞,論文 etc) • においてタイポはまれ 副課題:タイポの収集

  6. 本研究 • はじめに • 課題1: タイポの収集 • どうやって自動的に大量のタイポをあつめるか? • 課題2: タイポの分析 • 実験 • おわりに

  7. (本研究における)タイポとは 仮定1 タイポの出現頻度は原型に比べて著しく低い → |SOTP| : |STOP| < 1:50 仮定2 タイポと原型のスペリング/コンテキストは類似している → sim (please sotp it, please stop it) > TH. 仮定3 タイポは辞書に収載されていない →(form⇔from) は対象外.

  8. 仮定はインプリしやすい 手法 • 材料: (2008年クロール; 500MB) • STEP1: 3grmに分解→頻度集計 • SPTE2: 頻度差30倍の類似した3grmペア抽出 仮定1 仮定2 仮定3 N-gram (Freq) N-gram (Freq) TYPE ORG TYPO R1 The google wace (2) The google wave (42205) wace wave R1 The google have (202) The google wave (42205) have wave

  9. 結果 • 3.9万ペア (原型: タイポのペア) • 評価: 正しいタイポが定義不能のため困難 • 百聞<一見→ http://luululu.com/tweet/

  10. 本研究 • はじめに • 課題1: タイポの収集 • 課題2: タイポの分析 • タイポとはどんな特徴を持っているか? • 実験 • おわりに

  11. 各操作別のタイポされた文字 R1 R2 IN RM 挿入 削除 順入替 置換 i 1420 / 40412 = 0.0351 a 1673 / 34515 = 0.0484 e/h 242 a:e 954 d 981 / 13567 = 0.0723 o 1671 / 46884 = 0.0356 e/m 129 m:s 392 a 850 / 34515 = 0.0246 e 1004 / 50418 = 0.0199 a/h 107 m:n 310 y 760 / 50418 = 0.0150 i 742 / 40412 = 0.0183 h/t 78 y:t 280 e 741 / 50418 = 0.0146 l 661 / 19796 = 0.0333 i/e 70 z:s 278 t 735 / 44495 = 0.0165 h 653 / 28020 = 0.0233 o/t 63 t:e 265 n 684 / 33891 = 0.0201 n 499 / 33891 = 0.0147 g/n 63 q:g 238 o 609 / 46884 = 0.0129 t 394 / 44495 = 0.0088 s/u 60 r:e 218 iの挿入が多い しかし a と i の置換は少ない a の脱落が多い 何がバイアスになっているか?

  12. 要因1: 指とタイポの関係 文字順の入れ替えは 右手と左手の間で起こりやすい 置換は同じ右手/左手の指の間で起こりやすい

  13. 要因1: 指とタイポの関係 各指で起こるタイポ操作が異なる

  14. 要因2: 視覚的要因 形がよく似た文字は置換されやすい!? 画像類似度 類似度した文字

  15. 要因3: 単語内の位置 真ん中と後末にタイポが起きやすい 頻度 語末になりやすい文字 単語内の相対位置

  16. More info 要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t p_eI_p_@_ _w_e_I_ _ _t RMされた文字の発音 CELEX2 DATABASE aligned by GIZA++

  17. タイポを起こす要因とタイポモデル 要因1:打鍵ミス Cognitive Error Type Error 要因5:音韻 [Kukich1992] 何が主要な要因なのだろう? 要因4: doubling 要因2:画像類似度 要因3:単語内位置 Check Failure 要因5:音韻 タイポ

  18. 本研究 • はじめに • 課題1: タイポの収集 • 課題2: タイポの分析 • 実験 • タイポをタイポらしくしているのは何か? • =タイポと擬似タイポを識別 → 識別に貢献ものは何か? • おわりに

  19. 実験設定 • 目的 : タイポらしさはどの要因からくるのか調べる • データ (自動抽出結果と擬似負例) 正例 自動抽出した原型:タイポのペア Twitter:Twiter 負例 正例の原型をランダムに編集 Twitter:Zwitter • 手法: SVMで要因1-5をfeatureとして表現 要因1 要因3 Twitter:Twiter F4-RM L-RM 4of7 Twitter:Zwitter F4-F1-R2 L-R2 1of7

  20. 実験結果 • (1) どの要因を削除しても精度が下がる → どの要因も少なくともタイポの一部を説明 • (2) 特に が重要 単語内位置

  21. 単語認知の研究との不整合 単語に内在する情報量の偏在 [田中, 2008] 単語中央の 情報量が少ない 単語の中央/末尾に タイポが多い ≒ 単語中央付近の間違いに気づかない

  22. 仮説「逐次的に単語認知を行う」 No-look typing check No-look typing check i n v i i n v i t e E E B B =

  23. 本研究 • はじめに • 課題1: タイポの収集 • 課題2: タイポの分析 • 実験 • おわりに

  24. まとめ • 人はなぜ打ち間違うか? 神のみぞ知る • 人はどのように打ち間違うか... 本研究により定量的に調査可能 • →数学的モデル化 • →認知研究との関連 「逐次的単語認知」の検討 • →人間と同じように打ち間違えるプログラム • see TYPO Writer http://luululu.com/research/pm3/index.html

  25. 発音しない文字 中央付近

More Related