1 / 41

输入法用户数据分析及应用

输入法用户数据分析及应用. 张扬 @ zhangyang@sohu-rd.com. 简介. Topic :输入法用户数据分析及应用 涉及的几个问题 什么是输入法用户数据? 从中能分析出什么样的用户行为? 这些数据能如何被我们利用? 本报告将: 展现输入法用户数据分析的一些初步结论 提供用户数据应用的一些潜在场景 为今后用户数据采集的改进提供依据 预计时间: 1h. Outline. 简述:历史版本及词库制作过程 输入法用户数据分析 输入法打字比赛 用户上传词库 用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发

Download Presentation

输入法用户数据分析及应用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 输入法用户数据分析及应用 张扬@ zhangyang@sohu-rd.com

  2. 简介 • Topic:输入法用户数据分析及应用 • 涉及的几个问题 什么是输入法用户数据? 从中能分析出什么样的用户行为? 这些数据能如何被我们利用? • 本报告将: 展现输入法用户数据分析的一些初步结论 提供用户数据应用的一些潜在场景 为今后用户数据采集的改进提供依据 • 预计时间:1h

  3. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  4. 搜狗输入法历史版本 • V1.0.1.4,第一个版本,2006/06/05 • V1.0.1.6,公测第二版,2006/06/21 v模式,繁体输入 • V1.0.2.0,2006/08/15 支持自定义短语((*^__^*) 嘻嘻……、o(∩_∩)o…哈哈) • V1.0.2.4,1.0正式版,2006/09/05 • 2.0正式版,2007/01/29 词库更新,新组词算法 • V,3.0beta1,2007/03/02 皮肤功能,字符集选择(GB2312/GBK)

  5. 搜狗输入法历史版本(Contd.) • v3.0beta2,2007/07/02 细胞词库功能 统计语料整改、黑白名单流程整改 • 3.0正式版,2007/10/18 用户词库/配置网络同步 固定单字字序、增补现汉、百科、口语列表等、注音库第一次整改 • v3.1,2007/12/28 v模式计算器、错音提示 词库管理系统正式投入使用 • v3.2,2008/02/04 支持简拼组词 引入用户词库新词、注音库第二次整改 • V3.3,2008/04/20 成语词典、基于用户信息改进单字字序、新评测体系

  6. 输入法词库制作过程综览 涉及到的其他一些模块: 人工编辑词库管理系统 (错词/碎词/垃圾词、错音、注音库、新词) 固定单字字序 色情词汇固排

  7. 输入法词库制作过程综览(Contd.)

  8. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  9. 输入法用户数据分析 • 数据来源 • 输入法打字比赛 用户原始击键序列,包括上屏拼音序列、退格、翻页等击键信息 • 用户上传词库 以用户敲入空格上屏作为词边界 未记录退格、翻页等信息 原始拼音序列扩展成全拼 Samples: 的确dique/diq/dq/dque -> deque 软件按ruanjan -> ruanjianan (“软件”的错误拼写) 算恶劣suanel -> suanle (“算了”的错误拼写)

  10. 打字比赛用户击键序列 • 来源:07年末输入法打字比赛的用户输入原始击键序列 • 样本选取标准: 输入时间(115-125sec),长度(100-180字) • 原始数据格式 <: 退格 ^: 向上翻页 _: 向下翻页 • 比赛下输入行为的 特殊性 00BECD37,ren,人 00BEDB9E,zhiyouzai,只有在 00BEFCF1,dfll,颠非琉璃 00BEFE49< 00BEFF53< 00BF001E< 00BF06C5< 00BF1C9F_ 00BF1F10^ 00BF3893,dianfeiliuli,颠非琉璃 00BF3B71< 00BF3C2D< 00BF3CE8< 00BF4F67< 00BF5F26,dpll,颠沛流离 00BF658F,zhihou,之后

  11. 基本统计结果 • 样本总数:39756 • 平均输入时间 每词条输入时间:1473251107 / 843687 = 1746.21 msec 每单字平均输入时间:426762423 / 314221 = 1358.16 msec • 词条输入统计 输入二字词的次数最多, 其次是单字 歧义性?入袋为安?

  12. 拼音输入模式 • 全拼 > 末字简拼 > 全简拼 > 非末字简拼 的 (62780)        de    41436        d     20570        r      153 rn    15 rfma       15 di     3 得到 (370) dedao      321 ded  39 dd    4 deidao     3 ddao       2 dedk       1 一中 (6) yizhong   5 yizhogn   1 什么 (1081) shenme   608 shenm     277 sm   120 shm 40 shme       17 wft  5 sme 4 ufme       3 shime      2 车子里 (13) chezili     11 chezil      1 chzili       1

  13. 输入退格模式 • 抓取规则 前后音节不一致;编辑距离(naive)<= 3;前后词条长度 >= 2 • 退格模式类别 错音,字母增/删/交换;末字简拼,候选不理想;组词,候选不理想 么有|meyou -> 没有|meiyou 23 比尔|bier -> 别人|bieren 19 与昂|yuang -> 员工|yuangong 17 批次|pici -> 彼此|bici 14 一进|yijin -> 已经|yijing 13 一位|yiwei -> 因为|yinwei 12 局的|jude -> 觉得|juede 12 失去|shiq -> 事情|shiqing 12 女里|nvli -> 努力|nuli 9 成魔|chengmo -> 沉默|chenmo 9 吃完饭|chiwanfan -> 晚饭|wanfan 8

  14. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  15. 用户上传词库 • 搜狐通行证/3.0正式版起支持 • 定期从输入法服务器上dump一次词库的快照 以用户为单位,记录词条、拼音、输入次数信息

  16. 用户词库统计

  17. 用户输入的随意性 Case: 一点一起下去吃点东西 下去吃点东西 下去吃点 一起下去 一起下去吃 点一起下 下去吃 一起下 一点一 一点 点一起 7/6 2348/1969 125/116 124/121 2800414/320722 280/266 9/9 61/60 15/15 4/4

  18. 用户词库统计 (contd.) • 固定单字字序的必要性

  19. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  20. 输入法评测体系 • 现有评测体系 • 首选率 评测集合:std5000,mzk7000,bbs3000,userdict 评测模式:全拼、一词一上屏 • 垃圾词识别和删词验证 • 依据用户数据,构建更贴近用户输入行为的评测体系 • 词库完备性验证 增加recall考察指标;评测覆盖单字/系统词库/组词 • 区分devset和testset • 测试用例源于真实的用户输入

  21. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  22. 输入法词库/分词/注音 • 词库词条:有进有出 • 固定单字字序 • 注音 注音实例:的卢dilu、井柏然jingboran、王栎鑫wangyuexin 分配比例:重用chongyong/zhongyong、都du/dou 外围词库 核心词库 碎词/组合词: 觉自己、的发展和、为用户提供、记者昨、间进行、进行评、记者昨天 口语: 个税、回聊、默拒、团购、大摩、详单、抄底、法伤、国战 概念: 崇礼门、水立方、王紫娇、毒水饺、艳照门/裸照门/淫照门

  23. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  24. 输入法外围开发 • 拼音纠错模式抽取 将首先用于基于用户词库新词发现的垃圾词过滤上 • 数据:用户词库快照(080202) 55个错音模式共计22w个实例 现在xianzai -> 仙子啊xianzia 什么shenme -> 神恶魔shenem 软件ruanjian -> 软件按ruanjan 睡觉shuijiao -> 水骄傲shuijao • 与打字比赛数据相比,缺乏原始的用户击键序列记录

  25. 拼音纠错模式抽取: 步骤 • Step 1:修改传统编辑距离算法(DP, O(mn)),增加字符交换编辑操作 • Step 2: 使用回溯获得拼音对的对齐 • Step 3:用一个滑动窗口找出所有可能的用户编辑方式([ACL00]Brill & Moore) d[i, j] := min (              d[i-1, j] + 1,     // 删除 d[i, j-1] + 1,     // 添加 d[i-1, j-1] + cost   // 替换 d[i-2, j-2] + 1   // 交换, newly-added) struct Node { uchar distance; uchar lasti; uchar lastj; OpType lasttype; };

  26. Example: 今天ji’tian ->近台南jin’tai’n

  27. 抽取结果分析 g => ~  26144 //应该是模糊音 ~ => g  25504  //应该是模糊音 n => ~  23987  //右手食指 i => ~  17087  //右手中指 u => ~  10987  //右手食指 h => ~  5615  //右手食指 y => ~  2295  //右手食指 n => l  1703 i => u  1517 a => ~  1117 q => j  1080 ~ => u  945  //右手食指 ~ => i  906  //右手中指 ~ => h  729  //右手食指 • 字母增/删/替换模式 • 模糊音模式 • 字母交换模式 • 键盘布局?硬件质量?生理因素? Inadequate data! n~ => ng         25504       in~ => ing 19437       en~ => eng       3572       an~ => ang       2495 ng => n~         13201       eng => en~       5774 ing => in~ 4135 ang => an~       3292 sh => s~          4921 sha => s~a        3769 shu => s~u        1152 c~a => cha     729 zh => z~          694 zhe => z~e        694 me => em 43734 ai => ia 20992 ao => oa    15914 ia => ai      8313 en => ne    6733 le => el  700 he => eh    663

  28. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  29. 搜索查询校正 • Case: 贾平凹 • 输入法错音提示 (专利 from 王坚/赵立洋) • 用到搜索结果页的查询校正(QC)上? (该专利的一个延伸应用) 1) 查询中拼音/错音查询占一定比例 2) 现有QC不支持错音提示 3) Pros: QC彩蛋功能直接支持 4) Cons: 小众需求?

  30. 搜索查询校正(contd.) • 查询中拼音/错音查询所占比例 Web/3-4w, music/20w, pic/6w QC 点击统计: baidu=> 百度 5430 xingjiao => 性交 2065 zuoai => 做爱 2041 tangfang => 汤芳 1873 toupai => 偷拍 1641 rentiyishu => 人体艺术 1560 meinv => 美女 1437 siwa => 丝袜 1424 zuo爱 => 做爱 1261 zouguang => 走光 1184 zhangxiaoyu => 张筱雨 1046 renyao => 人妖 1044 renti => 人体 1041 xing爱 => 性爱 898 hushi => 护士 830

  31. 搜索查询校正(contd.) • Case1: 张柏芝(正确读音:zhangbaizhi) 查询zhangbaizhi=> 有“张柏芝”QC建议 查询zhangbozhi=> 无“张柏芝”QC建议 原因:目前注音库仅保留正确读音,造成查询分流 • Case2: 张筱雨

  32. 搜索查询校正(contd.) • Case3: 贾平凹

  33. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  34. 改进方向 • 用户个性化,路在何方 击键序列、输入词条、喜好设置、context信息推送 • 用户数据隐私? • 词库大小:安装、更新、推广 Dilemma:输入流畅性 vs. 词库权威性 口语 vs. 基本词汇 (劻勷、束脩、暗室逢灯、爱礼存羊) 色情词/鄙语 与二元的界限: 是以、别管、贼贵、蹭饭、办卡 核心词库 vs. 外围词库 • 如何与搜狗其他服务更紧密结合

  35. 尚待解决的问题 • 新形式噪音数据的过滤 艳照门:燕赵门、眼照明、艳照闷、眼罩门 上上签:丄丄签 • 用户词库统计信息的新需求 缺乏原始击键序列信息 => 输入法小白狗版 噪音数据 a) 啊ashia、必bixu、炒buchao等不规范输入 b) 火星文、繁体输入 用户群体的划分(专业、地域、喜好群体)

  36. Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论

  37. 总结 • 搜狗输入法是第一个问世的互联网输入法 因词库、皮肤、自定义短语等功能为广大网民所喜爱,积累了一定的领先优势 • 面对Google和腾讯的追赶,我们仍不断创新 细胞词库、错音提示 • 搜狗输入法的今后方向是巩固自己的领先优势,苦练内功,同时以用户数据为切入点,在功能个性化、输入贴心化下做出创新,并尽可能为搜索和其他产品吸引更多用户,提升用户黏性 资源整合、信息推送 • 我们能做得更好!

  38. Reference • [ACL00] Brill & Moore, An improved error model for noisy channel spelling correction, 2000 • 陈正 & 李开复,拼写纠正在拼音输入法中的应用,计算机学报,2001 • 王坚/赵立洋,一种互联网关键字符相关信息的发布方法和系统,专利申请书,2007

  39. Any questions?

  40. Thank you

More Related