TYPO Writer ヒトはどのように打ち間違えるのか？

TYPOって？ TYPO Writerヒトはどのように打ち間違えるのか？荒牧英治東大宇野良子農工大岡瑞起東大

まだ間違いに気が付いていないのか?

TYPOが致命的な場合も日本看護協会の告知[Dec2008]よりTYPOが致命的な場合も日本看護協会の告知[Dec2008]より

TYPOの特徴 • 従来のコーパス（新聞や論文）ではまれ • BUT: 例外的現象ではない人間ならだれしも行う平均3%の割合で打鍵ミスエキスパートでも0.9% [Grudin1983] チャットやマイクロブログカルテ文章＝ungrammatical fragmented [Sibanda 2005] • 記述者は気づきにくい→ いったいヒトはなぜタイポをするのか?

本研究の2つの課題 • いったいなぜ／どのようにタイポするのか主課題：タイポの分析 • BUT: 従来のコーパス（新聞，論文 etc） • においてタイポはまれ副課題：タイポの収集

本研究 • はじめに • 課題１：タイポの収集 • どうやって自動的に大量のタイポをあつめるか？ • 課題２：タイポの分析 • 実験 • おわりに

（本研究における）タイポとは 仮定1 タイポの出現頻度は原型に比べて著しく低い → |SOTP| : |STOP| < 1:50 仮定2 タイポと原型のスペリング／コンテキストは類似している → sim (please sotp it, please stop it) > TH. 仮定3 タイポは辞書に収載されていない →(form⇔from) は対象外.

仮定はインプリしやすい 手法 • 材料： (2008年クロール; 500MB) • STEP1: 3grmに分解→頻度集計 • SPTE2: 頻度差30倍の類似した3grmペア抽出仮定1 仮定2 仮定3 N-gram (Freq) N-gram (Freq) TYPE ORG TYPO R1 The google wace (2) The google wave (42205) wace wave R1 The google have (202) The google wave (42205) have wave

結果 • 3.9万ペア（原型: タイポのペア） • 評価：正しいタイポが定義不能のため困難 • 百聞＜一見→ http://luululu.com/tweet/

本研究 • はじめに • 課題１：タイポの収集 • 課題２：タイポの分析 • タイポとはどんな特徴を持っているか？ • 実験 • おわりに

各操作別のタイポされた文字 R1 R2 IN RM 挿入削除順入替置換 i 1420 / 40412 = 0.0351 a 1673 / 34515 = 0.0484 e/h 242 a:e 954 d 981 / 13567 = 0.0723 o 1671 / 46884 = 0.0356 e/m 129 m:s 392 a 850 / 34515 = 0.0246 e 1004 / 50418 = 0.0199 a/h 107 m:n 310 y 760 / 50418 = 0.0150 i 742 / 40412 = 0.0183 h/t 78 y:t 280 e 741 / 50418 = 0.0146 l 661 / 19796 = 0.0333 i/e 70 z:s 278 t 735 / 44495 = 0.0165 h 653 / 28020 = 0.0233 o/t 63 t:e 265 n 684 / 33891 = 0.0201 n 499 / 33891 = 0.0147 g/n 63 q:g 238 o 609 / 46884 = 0.0129 t 394 / 44495 = 0.0088 s/u 60 r:e 218 iの挿入が多いしかし a と i の置換は少ない a の脱落が多い何がバイアスになっているか？

要因1: 指とタイポの関係 文字順の入れ替えは右手と左手の間で起こりやすい置換は同じ右手／左手の指の間で起こりやすい

要因1: 指とタイポの関係 各指で起こるタイポ操作が異なる

要因2: 視覚的要因 形がよく似た文字は置換されやすい!? 画像類似度類似度した文字

要因3: 単語内の位置 真ん中と後末にタイポが起きやすい頻度語末になりやすい文字単語内の相対位置

More info 要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t p_eI_p_@_ _w_e_I_ _ _t RMされた文字の発音 CELEX2 DATABASE aligned by GIZA++

タイポを起こす要因とタイポモデル 要因1:打鍵ミス Cognitive Error Type Error 要因5:音韻 [Kukich1992] 何が主要な要因なのだろう？要因4: doubling 要因2:画像類似度要因3:単語内位置 Check Failure 要因5:音韻タイポ

本研究 • はじめに • 課題１：タイポの収集 • 課題２：タイポの分析 • 実験 • タイポをタイポらしくしているのは何か？ • ＝タイポと擬似タイポを識別 → 識別に貢献ものは何か？ • おわりに

実験設定 • 目的 : タイポらしさはどの要因からくるのか調べる • データ（自動抽出結果と擬似負例）正例自動抽出した原型:タイポのペア Twitter:Twiter 負例正例の原型をランダムに編集 Twitter:Zwitter • 手法： SVMで要因1-5をfeatureとして表現要因1 要因3 Twitter:Twiter F4-RM L-RM 4of7 Twitter:Zwitter F4-F1-R2 L-R2 1of7

実験結果 • (1) どの要因を削除しても精度が下がる → どの要因も少なくともタイポの一部を説明 • (2) 特にが重要単語内位置

単語認知の研究との不整合 単語に内在する情報量の偏在 [田中, 2008] 単語中央の情報量が少ない単語の中央／末尾にタイポが多い ≒ 単語中央付近の間違いに気づかない

仮説「逐次的に単語認知を行う」 No-look typing check No-look typing check i n v i i n v i t e E E B B =

本研究 • はじめに • 課題１：タイポの収集 • 課題２：タイポの分析 • 実験 • おわりに

まとめ • 人はなぜ打ち間違うか? 神のみぞ知る • 人はどのように打ち間違うか．．．本研究により定量的に調査可能 • →数学的モデル化 • →認知研究との関連「逐次的単語認知」の検討 • →人間と同じように打ち間違えるプログラム • see TYPO Writer http://luululu.com/research/pm3/index.html

発音しない文字 中央付近

TYPO Writer ヒトはどのように打ち間違えるのか？

TYPO Writer ヒトはどのように打ち間違えるのか？

Presentation Transcript

RAFT

Random Writer

Writer’s Notebook

Fee Writer Introduction

A Writer’s Style

Ideas for Writing in a Writer’s Notebook

Living Life like a Writer

The Writer’s Workshop

Exercice Quel est le problème typo de la diapositive suivante ? Que faire ?

Writer’s Block

MISTAR Report Writer

A Writer’s Purpose

If you find a typo on the website or in a handout, email Durfee or use suggestion box

The Solid State Band Theory of Solids

Co:Writer

Figurative Language

Accurately Detect Parked Domain Typo-squatting Attacks

If you find a typo on the website or in a handout, email Durfee or use suggestion box

Label Writer 450

Ideas

RAFTS