250 likes | 423 Views
TYPO って?. TYPO Writer ヒトはどのように打ち間違えるのか?. 荒牧英治 東大 宇野良子 農工大 岡瑞起 東大. まだ間違いに気が付いていないのか ?. TYPO が致命的な場合も 日本看護協会の告知 [Dec2008] より. TYPO の特徴. 従来のコーパス(新聞や論文)ではまれ BUT: 例外的現象ではない. 人間ならだれしも行う 平均 3% の割合で打鍵ミス エキスパートでも 0.9% [Grudin1983]. チャットやマイクロブログ カルテ文章= ungrammatical fragmented [Sibanda 2005].
E N D
TYPOって? TYPO Writerヒトはどのように打ち間違えるのか? 荒牧英治 東大 宇野良子 農工大 岡瑞起 東大
TYPOが致命的な場合も日本看護協会の告知[Dec2008]よりTYPOが致命的な場合も日本看護協会の告知[Dec2008]より
TYPOの特徴 • 従来のコーパス(新聞や論文)ではまれ • BUT: 例外的現象ではない 人間ならだれしも行う 平均3%の割合で打鍵ミス エキスパートでも0.9% [Grudin1983] チャットやマイクロブログ カルテ文章=ungrammatical fragmented [Sibanda 2005] • 記述者は気づきにくい→ いったいヒトはなぜタイポをするのか?
本研究の2つの課題 • いったいなぜ/どのようにタイポするのか 主課題:タイポの分析 • BUT: 従来のコーパス(新聞,論文 etc) • においてタイポはまれ 副課題:タイポの収集
本研究 • はじめに • 課題1: タイポの収集 • どうやって自動的に大量のタイポをあつめるか? • 課題2: タイポの分析 • 実験 • おわりに
(本研究における)タイポとは 仮定1 タイポの出現頻度は原型に比べて著しく低い → |SOTP| : |STOP| < 1:50 仮定2 タイポと原型のスペリング/コンテキストは類似している → sim (please sotp it, please stop it) > TH. 仮定3 タイポは辞書に収載されていない →(form⇔from) は対象外.
仮定はインプリしやすい 手法 • 材料: (2008年クロール; 500MB) • STEP1: 3grmに分解→頻度集計 • SPTE2: 頻度差30倍の類似した3grmペア抽出 仮定1 仮定2 仮定3 N-gram (Freq) N-gram (Freq) TYPE ORG TYPO R1 The google wace (2) The google wave (42205) wace wave R1 The google have (202) The google wave (42205) have wave
結果 • 3.9万ペア (原型: タイポのペア) • 評価: 正しいタイポが定義不能のため困難 • 百聞<一見→ http://luululu.com/tweet/
本研究 • はじめに • 課題1: タイポの収集 • 課題2: タイポの分析 • タイポとはどんな特徴を持っているか? • 実験 • おわりに
各操作別のタイポされた文字 R1 R2 IN RM 挿入 削除 順入替 置換 i 1420 / 40412 = 0.0351 a 1673 / 34515 = 0.0484 e/h 242 a:e 954 d 981 / 13567 = 0.0723 o 1671 / 46884 = 0.0356 e/m 129 m:s 392 a 850 / 34515 = 0.0246 e 1004 / 50418 = 0.0199 a/h 107 m:n 310 y 760 / 50418 = 0.0150 i 742 / 40412 = 0.0183 h/t 78 y:t 280 e 741 / 50418 = 0.0146 l 661 / 19796 = 0.0333 i/e 70 z:s 278 t 735 / 44495 = 0.0165 h 653 / 28020 = 0.0233 o/t 63 t:e 265 n 684 / 33891 = 0.0201 n 499 / 33891 = 0.0147 g/n 63 q:g 238 o 609 / 46884 = 0.0129 t 394 / 44495 = 0.0088 s/u 60 r:e 218 iの挿入が多い しかし a と i の置換は少ない a の脱落が多い 何がバイアスになっているか?
要因1: 指とタイポの関係 文字順の入れ替えは 右手と左手の間で起こりやすい 置換は同じ右手/左手の指の間で起こりやすい
要因1: 指とタイポの関係 各指で起こるタイポ操作が異なる
要因2: 視覚的要因 形がよく似た文字は置換されやすい!? 画像類似度 類似度した文字
要因3: 単語内の位置 真ん中と後末にタイポが起きやすい 頻度 語末になりやすい文字 単語内の相対位置
More info 要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t p_eI_p_@_ _w_e_I_ _ _t RMされた文字の発音 CELEX2 DATABASE aligned by GIZA++
タイポを起こす要因とタイポモデル 要因1:打鍵ミス Cognitive Error Type Error 要因5:音韻 [Kukich1992] 何が主要な要因なのだろう? 要因4: doubling 要因2:画像類似度 要因3:単語内位置 Check Failure 要因5:音韻 タイポ
本研究 • はじめに • 課題1: タイポの収集 • 課題2: タイポの分析 • 実験 • タイポをタイポらしくしているのは何か? • =タイポと擬似タイポを識別 → 識別に貢献ものは何か? • おわりに
実験設定 • 目的 : タイポらしさはどの要因からくるのか調べる • データ (自動抽出結果と擬似負例) 正例 自動抽出した原型:タイポのペア Twitter:Twiter 負例 正例の原型をランダムに編集 Twitter:Zwitter • 手法: SVMで要因1-5をfeatureとして表現 要因1 要因3 Twitter:Twiter F4-RM L-RM 4of7 Twitter:Zwitter F4-F1-R2 L-R2 1of7
実験結果 • (1) どの要因を削除しても精度が下がる → どの要因も少なくともタイポの一部を説明 • (2) 特に が重要 単語内位置
単語認知の研究との不整合 単語に内在する情報量の偏在 [田中, 2008] 単語中央の 情報量が少ない 単語の中央/末尾に タイポが多い ≒ 単語中央付近の間違いに気づかない
仮説「逐次的に単語認知を行う」 No-look typing check No-look typing check i n v i i n v i t e E E B B =
本研究 • はじめに • 課題1: タイポの収集 • 課題2: タイポの分析 • 実験 • おわりに
まとめ • 人はなぜ打ち間違うか? 神のみぞ知る • 人はどのように打ち間違うか... 本研究により定量的に調査可能 • →数学的モデル化 • →認知研究との関連 「逐次的単語認知」の検討 • →人間と同じように打ち間違えるプログラム • see TYPO Writer http://luululu.com/research/pm3/index.html
発音しない文字 中央付近