390 likes | 528 Views
借助于互联网的中文研究及应用. 目录. 1 、 借助于互联网的中文研究 2 、 借助于互联网的中文应用. 目录. 1 、 借助于互联网的中文研究 2 、 借助于互联网的中文应用. 从“老虎爪子”谈起. Google: “找到约 135,000 条结果” f( “老虎爪子” )= 135,000 f( “老虎的爪子” )= 299,000 词汇化模板. 词法层. N+N: f( “圆桌会议” )=7,480,000 f( “圆桌的会议” )= 16,000. 词法 - 句法层. V+N:
E N D
目录 1、借助于互联网的中文研究 2、借助于互联网的中文应用
目录 1、借助于互联网的中文研究 2、借助于互联网的中文应用
从“老虎爪子”谈起 Google: “找到约 135,000条结果” f(“老虎爪子”)= 135,000 f(“老虎的爪子”)= 299,000 词汇化模板
词法层 N+N: f(“圆桌会议”)=7,480,000 f(“圆桌的会议”)= 16,000
词法-句法层 V+N: f(“告别仪式”)= 7,150,000 f(“告别友人”)= 12,900 f(“告别了仪式”)= 151 f(“告别了友人”)= 8,160 f(“告别着仪式”)= 0 f(“告别着友人”)= 1 f(“告别过仪式”)= 0 f(“告别过友人”)= 0
词法-句法层 V+N: f(“吃苹果”)= 13,100,000 f(“吃了苹果”)= 1,130,000 f(“吃着苹果”)= 3,610,000 f(“吃过苹果”)= 1,530,000 f(“不吃苹果”)= 30,000,000 f(“没吃苹果”)= 15,300,000 f(“吃不吃苹果”)= 2,220,000 f(“吃没吃苹果”)= 1,720,000 ……
语义层 受事: f(“吃饭”)= 342,000,000 f(“把饭吃了”)=7,630,000 f(“炒菜”)=25,100,000 f(“把菜炒了”)=193,000 f(“割阑尾”)= 94,000 f(“把阑尾割了”)= 32,200 f(“拆鸡窝”)=7,880 f(“把鸡窝拆了”)=2,250 f(“吃食堂”)=1,060,000 f(“把食堂吃了”)= 6 f(“去北京”)= 27,000,000 f(“把北京去了”)= 6 f(“跑名额”)=18,700 f(“把名额跑了”)=0 f(“愁经费”)=26,700 f(“把经费愁了”)=0
逻辑层 海带怎样一煮就烂? 超可怕!5种食物一吃就胖 五笔打字一学就会 一看就懂的中医入门 如何让你的机子一打就着 期银上调保证金泡沫一挤就破 为什么一上网就死机 如何解决Word2003一保存就崩溃问题 一见面就吵架的星座情侣组合 一着凉就感冒? ……
几个相关问题 • 词汇化模板匹配中的层次问题 ……它告别了理想,告别了仪式,告别了崇高,告别了英雄,告别了悲剧,告别了诗意, 告别了“父亲”……它在向一切的一切告别,并试图告别自身。………… 告别了仪式化与公共事件化,也告别了…… “告别了仪式+标点符号”
几个相关问题 • 模板中所涉及的成分对字符串匹配的直接适用性问题 袁毓林《汉语词类的认知研究和模糊分类》(上海教育出版社,2010)给出了动词的形式化定义: “动词是可以受“不”修饰的词中,或者可以带真宾语,或者不能受“很”修饰的词。” 即动词的分布框架设计如下: V: 不 & | O ∨ * 很 | 孩子不很说话怎么办? 应把“不很”从“| 很 |”中排除。
几个相关问题 • 词汇化模板体系的覆盖性问题 每一个词汇化模板只是从一个特定的角度对一种特定的语言现象进行了描述。显然,有必要建立词汇化模板体系。并且要研究这个体系对语言现象的覆盖性到底如何,是否能够获得描述的某种整体性。形象一点讲,把一条条小块布片拼缀起来,有无可能制成一件“百衲衣”(袈裟)呢?
几个相关问题 • 借助现有搜索引擎完成词汇化模板定量匹配的局限性问题 如输入查询词“很出发”,搜索引擎的查询结果中包含了: 郁闷得很,出发前车出点问题 重复问题
基于互联网规模语料库的模板检索 • 互联网规模语料库 从搜狗T语料库上提取了超过20亿个句子。去重共得到729,008,561个不同的句子(七亿两千九百万),建立索引。 • 支持模板检索 “老虎爪子”不带标点95次 “老虎的爪子”不带标点124次 (1)老虎的爪子功夫可不是盖的。
基于互联网规模语料库的模板检索 “圆桌会议”不带标点6895次 “圆桌的会议”不带标点8次 • (1)公安局大楼,一间有着椭圆桌的会议室里,易天琪吵着要走,头上还罩着黑头罩。 • (2)布置着一些简单的家具,然后是围成长条圆桌的会议室 • (3)时至今日,各类国际性的会议、谈判都是采取圆桌的会议形势。 (1)一楼圆桌会议室可容纳15人。(“圆桌会议室”在语料中出现175次) (2)7月25日,在尼泊尔王国国家肿瘤医院圆桌会议厅内,隆重举行了我援尼药品交接仪式。(“圆桌会议厅”在语料中出现23次) “圆桌会议” 不带标点6895次。带标点773次。 “圆桌的会议” 不带标点8次。带标点0次。
词法-句法层 “吃苹果”不带标点7418次。带标点1076次。 “吃了苹果”不带标点193次。带标点16次。 “吃着苹果”不带标点458次。带标点55次。 “吃过苹果”不带标点119次。带标点16次。 “不吃苹果”不带标点187次。带标点40次。 “没吃苹果”不带标点20次。带标点2次。 “吃不吃苹果”不带标点21次。带标点8次。 “吃没吃苹果”不带标点1次。带标点0次。 (1)吃苹果皮有助于预防癌症。 (2)能吃苹果泥吗?
词法-句法层 “吃食堂” 不带标点1798次。带标点243次。 “把食堂吃了” 不带标点0次。带标点0次。 “去北京” 不带标点51032次。带标点2971次。 “把北京去了 不带标点0次。带标点0次。 “跑名额” 不带标点8次。带标点2次。 “把名额跑了” 不带标点0次。带标点0次。 “愁经费” 不带标点17次。带标点2次。 “把经费愁了” 不带标点0次。带标点0次。
第一部分小结 • 极大规模(massive scale)语料库:林子大了什么鸟都有 • 极大规模资源上的浅层处理(shallow processing) • “能够帮助人的电脑,需要人的更多帮助” • “去粗取精”“去伪存真” 标点、句首句尾符的作用:动人春色不须多 • 多个不同角度“词汇化模板”的综合分析
目录 1、借助于互联网的中文研究 2、借助于互联网的中文应用
@阿紫的幸福生活 的成语控水平指数为100,原创微博中每100字使用成语0.654个。赶紧来测试你的吧
互联网方言动态地图 上海方言中的特征词“好伐”在各地区的分布图
微博用户写作风格阳刚/红粉指数 中文微博用户在原创微博和转发微博部分偏好词汇Top10统计表 性别预测模型在测试数据集上的实验结果
基于Web的古诗词句频度统计 韩愈《谒衡岳庙遂宿岳寺题门楼》
第二部分小结 • 小也是美 • 互联网(社交网络)是效果的倍增器:小东西,大影响
一个相关会议征文 • 孙茂松,基于互联网自然标注资源的自然语言处理,《中文信息处理》,2011年第6期 “无心插柳柳成荫”式的语言资源 • “第十二届全国计算语言学会议(CCL 2013)及第一届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD 2013)联合征稿启事 会议网址: http://210.29.169.226/CNCCL2013/main.html