450 likes | 773 Views
中文信息处理概述. For 对外汉语方向本科生. 本章内容. 释名 汉语的特点 ---- 中文信息处理的难点 中文信息处理的研究内容 汉语信息处理的主攻方向 中文信息处理的发展阶段 中文信息处理的现状 对当前中文信息处理现状的哲学反思 目前国内中文信息处理的主要力量和代表人物. 释名. 中文信息处理 ( Chinese Information Processing )
E N D
中文信息处理概述 For 对外汉语方向本科生
本章内容 • 释名 • 汉语的特点----中文信息处理的难点 • 中文信息处理的研究内容 • 汉语信息处理的主攻方向 • 中文信息处理的发展阶段 • 中文信息处理的现状 • 对当前中文信息处理现状的哲学反思 • 目前国内中文信息处理的主要力量和代表人物 对外经贸大学中文学院.对外汉语
释名 • 中文信息处理(Chinese Information Processing) 中文信息处理分为汉字信息处理与汉语信息处理两部分,是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支。 • 汉字信息处理(Chinese Character Information Processing) 用计算机对汉字所表示的信息进行的操作和加工。 汉语信息处理既立足于汉字信息处理, 又区别于汉字信息处理。 处理对象不再是单个的汉字或字符串, 而是语言学的单位:词、短语、句子乃至篇章、文档集合。 两者之间也有联系:拼音汉字转换、简繁转换、OCR 后处理、文献检索、语音识别与合成等等。 对外经贸大学中文学院.对外汉语
释名 • Chinese Information Processing(CIP) 中文信息处理 ——Chinese character Information Processing 汉字信息处理 • CIP Chinese character (IT) = Chinese ideograph (Sinology) ——Chinese language Information Processing 汉语信息处理 • Language Information Processing 语言信息处理 (1) NLP/ CIP (2) Chinese-centered Multi-lingual Information Processing 以汉语为核心的多语言信息处理 对外经贸大学中文学院.对外汉语
汉语的特点----中文信息处理的难点 • 汉语文字文本的语言单位边界糢糊。 • 词间无间隔 • 人名、地名不大写 • 句子之间界限不清晰 • 汉字 完全使用由象形文字演化而来的方块汉字; 字是汉语表义的基本单位。一个汉字既可以只能作为构词成分,也可以独立成词,甚至可以独立成句 对外经贸大学中文学院.对外汉语
汉语的特点----中文信息处理的难点 • 词语 • “词”无严格的形式定义,词本身也没有明显的形态标志 • 词没有形态变化;词性兼类现象严重 • 虚词常常省略,与实词形式上无区别 • 词性与句子成分之间无一一对应关系,中心谓语动词难以确定 • 多动词连用现象突出 对外经贸大学中文学院.对外汉语
汉语的特点----中文信息处理的难点 • 句子 • 结构松散 我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。 • 语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词 • 句子语序灵活,语句格式丰富 • 语义灵活 一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。 对外经贸大学中文学院.对外汉语
汉语的计算机理解比西方语言的理解困难得多?汉语的计算机理解比西方语言的理解困难得多? 现代汉语研究现状--之于中文信息处理 • 现代汉语研究和计算机使用的脱节,现代汉语研究已经大大滞后于中文信息处理的现实需求 • 一是过去的语言学知识主要是为人与人之间的交际服务的,不能完全适应人与机器的交流。 • 二是过去对现代汉语的研究,基本上都是在研究印欧语的理论和方法的框架内进行,汉语有很多现象是这些理论和方法解决不了的。 对外经贸大学中文学院.对外汉语
中文信息处理的研究内容 • 研究对象:文字和语音 • 语言单位和层面:字-词-句-篇 • 基础研究 基础理论:语言学 基础方法 人工智能:知识工程,机器学习,模式识别,神经计算 数学: 模型理论,形式化理论,数理统计 基础技术 基础资源 基础系统/平台 • 应用研究 应用技术 应用资源 应用系统/平台 对外经贸大学中文学院.对外汉语
文字 汉字键盘输入技术 汉字输入技术 软件汉化技术 汉字字形识别技术 激光照排技术 文本分类 信息检索 研究对象 • 语音 • 汉语语音识别技术 • 汉语语音合成技术 对外经贸大学中文学院.对外汉语
语言单位和层面 • 字 • 汉字编码技术 • 汉字输入技术 • 汉字字形和字形库管理技术 • 汉字输出技术 • 词 • 汉语分词 • 句篇 • 中文信息检索 • 中文信息抽取 • 中文文本分类技术 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向—两个实例 • 两个实例 实例一 关于自动升降晾衣架的对话 妻子:“嘿,过了一年才坏。” 丈夫:“什么呀,才一年就坏了。” 丈夫理解了妻子的意思吗? • ——虚词词义:才(数量词前后,意义不同) • ——背景知识:保修期 • ——知识激活机制? 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向—两个实例 实例二 关于“沙漠化”的文章 “几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,……。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。” ——<今日民航>2001年9月号 就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/ • ——未登录词的识别 • ——知识背景 • ——认知机制 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向—歧义消解 白天鹅/--白/ 天鹅/--白天/ 鹅/--白/ 天/ 鹅/ • 词的切分 白天鹅 计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否? 白天鹅飞过来了——白/ 天鹅/ 飞/ 过来/ 了 白天鹅可以看家——白天/ 鹅/ 可以/ 看/ 家/ 白天鹅在湖里游泳——白/ 天鹅/ ?白天/ 鹅/ ? 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向 • 同形词辨析 只 这只会测水温的鸭子 ——量词q [zhi1] ?副词d [zhi3]? ——这/ 只/ 会/ 测/ 水温/ 的/ 鸭子/ (切分无歧义) • ——这/r 只/q 会/v 测/v 水温/n 的/u 鸭子/n , 挺有用的 • ——这/r 只/d 会/v 测/v 水温/n 的/u 鸭子/n ,没什么用 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向 • 词性歧义 读音相同的“连”也有不同的词性(意义): 一个连有三个排——“连”是名词n 我们兄弟心连心——“连”是动词v 苹果可以连皮吃——“连”是介词p 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向 • 词义辨析 • 讲真话 • 讲卫生 • 中国队大胜/败美国队。 • 对外经贸大学两个灯只亮一个,不过就是亮两个也不亮。 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向 • 短语结构歧义 m + q + n + “的” + n 三个大学的老师三/m 个/q 大学/n 的/u 老师/n ——[ [ 三/m 个/q 大学/n ] 的/u 老师/n ] ——[ 三/m 个/q [ 大学/n 的/u 老师/n ] ] 三所大学的老师—[ [ 三/m 所/q 大学/n ] 的/u 老师/n ] 三位大学的老师—[ 三/m 位/q [ 大学/n 的/u 老师/n ] ] 小王和小李的妹妹 李娜和郑洁的老公都是教练。 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向 • 句法结构歧义 例1 会员选举他当主席 例2 学生认为他是校长 n+v+r+v+n 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向 • 语义歧义以及依赖语境的歧义消解 • 汉语语义分析(切分、标注、句法分析都无歧义) 熊猫/n 吃/v 竹笋/n 学生/n 吃/v 食堂/n 民工/n 吃/v 大碗/n 老师/n 写/v 毛笔/n • 汉语语义指向分析 写/v 好/a 了/u (文章) 写/v 累/a 了/u (老师) 写/v 秃/a 了/u (毛笔) • 汉语语境分析 小张/n 打针/v 去/v 了/u 北京的春天来了 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向 • 长句与句号、逗号 中文中常有长句子,一逗到底。例: “新一届测绘学名词审定委员会的主要特点是年青化,吸收了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。” 形式上的一句话包含100多个汉字。除第一个分句外,后面的分句都没有主语。 1. 你得藏在一个你看得见他,可是他看不见你的地方。 2. 车臣武装分子和世界其他地区的恐怖分子是一丘之貉,应该合力打击他们。 对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向 • 指代与省略 小明要求他爸爸给他弟弟买一件他喜欢的衣服,他同意了。 重庆队得88分,客场负于台湾队2分。 • 时态、语态、语气 我在家里。(be) 我在家里看书。(in) 我在看书。(-ing) 你在干什么?——看书。 你喜欢干什么?——看书。 如果我是你,我就去了。 如果我有时间,我就去。 对外经贸大学中文学院.对外汉语
语境萃取 舆情监控 热点分析 篇章处理 句模研究 句型研究 句义理解 句处理 词处理 分词规范 词的切分 词频统计 词性标注 词义标注 短语捆绑 专名识别 新词发现 字处理 汉字编码 汉字输入 汉字显示 字频统计 中文信息处理的发展阶段 对外经贸大学中文学院.对外汉语
中文信息处理的发展阶段 • 学习和理论探索的萌芽阶段 • 汉字信息处理为主的早期阶段 • 字、词等表层处理为特征的初级阶段 • 句法和语义等深层处理为代表的中期阶段 • 语料库统计方法兴起的近期阶段 • 以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段 对外经贸大学中文学院.对外汉语
学习和理论探索的萌芽阶段 • 这一阶段以介绍国外计算语言学领域的理论方法为主。 • 对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告,是这方面的代表。早期将国外的理论方法进行全面系统汉化的主要刊物有:86年底创刊的《中文信息学报》,语言学界的《国外语言学》和《语言文字应用》。 • 学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身的特点,对这些理论和方法做了深入一步的探索,极少数人对自然语言理解做了深层次的带有哲学色彩的思考,如:80年代中期宁春岩发表的《自然语言理解中的几个根本问题》,以及他译介的美国哲学家休伯特.德雷福斯(Hubert L.Dreyfus)的专著《计算机不能做什么--人工智能的极限》,语言学界袁毓林1993年发表了《自然语言理解的语言学假设》。 • 这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性的作用、奠定了中文信息处理后期的理论基础。 对外经贸大学中文学院.对外汉语
汉字信息处理为主的早期阶段 • 1974年周恩来总理亲自批准了“七四八”工程,它标志着计算机中文信息处理技术受到了国家高度重视并且进入了他的第一个发展阶段——汉字信息处理时代。 • 涌现出多种汉字输入编码方案,能满足多种现实需要。 • 王选教授等发明的汉字字库的信息压缩技术使汉字文献的印刷出版告别铅与火,进入电子时代。 对外经贸大学中文学院.对外汉语
“七四八”工程 是国家重要工程项目“计算机汉字信息处理系统工程”的简称,因为该项目是1974年8月由新华社、四机部等五部委共同申请而立项的,所以简称“七四八”工程。1975年北京大学王选教授的汉字信息处理思想得到国家确认,在北大成立“七四八”工程会战组,由王选教授负责进行“计算机-汉字激光照排系统”的研制,使“七四八”工程进入实质性实施阶段。“七四八”工程标志着计算机中文信息处理技术受到了国家高度重视并且进入了它的第一个发展阶段——汉字信息处理时代,从而划时代地使汉字文献的印刷出版告别铅与火,进入电子时代。 对外经贸大学中文学院.对外汉语
字、词等表层处理为特征的初级阶段 • 北京大学开发的华光排版系统被评为1985年中国十大科技成就之一,并荣获中国发明协会发明奖。 • “六五”期间(1981-1985),北京航空学院主持,中国人民大学等十几个院校,研究机构参加的“现代汉语词频统计”工程是这一阶段代表性的重大科研成果,这是国内首次使用计算机进行大规模语料(2000万字)的词频统计研究的大型语言工程。 • 第一个汉语自动分词系统——CDWS,建立了一个有13万余词条的计算机词典,研制了一个有52个属性的汉字信息库。 • “七五”期间(1986-1990),建立了功能完备、实用有效的“汉字属性系统”,编篆并出版了汉字属性字典。 • 1988年初,北京航空航天大学在承担国家“七五”科技攻关项目《信息处理用规范现代汉语词库》的同时,提出并经过了三年的努力,汲取了语言界和计算机界数百名专家的宝贵建议和意见,最终制定了《信息处理用规范现代汉语分词规范》,从计算机工程应用的需求出发,解决了语言学界争论了几十年而未解决的汉语的词的定义问题。为我国从汉字处理进入词语、语句处理打下了基础。 对外经贸大学中文学院.对外汉语
句法和语义等深层处理为代表的中期阶段 • 电子部计算机与微电子发展研究中心(CCID)联合国内从事中文信息处理的主要单位,从信息处理用汉语语法、语义体系的应用研究着手,以中文信息处理产品的智能化为目标,组织实施了并形成了一个完整的中文信息处理应用平台工程。 • 从80 年代开始,在借鉴国外的自然语言语义理论的基础之上,先后提出了一系列符合汉语特点的语义分析方法和语义表示理论。 对外经贸大学中文学院.对外汉语
语料库统计方法兴起的近期阶段 • 语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科 -- 语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。 • 国内涌现出一大批语料库,包括中文生语料库、词语语料库、句法语料库 ;也包括口语料库、对比语料库、少数民族语料库等。 对外经贸大学中文学院.对外汉语
以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段 • 人们在享用Internet带来的各种便利的同时,却又被如何从浩如烟海的网上资源中,如何快速、高效的查找自己的信息所困扰,典型的主要需求有信息分类、信息提取、自动问答、基于内容的快速信息检索、基于个性的信息推送,数字化图书馆和信息网格等。 • 中文信息处理技术必须解决网络环境下的、大规模的、信息(文本或语音)智能访问、加工处理、自动分析理解。 对外经贸大学中文学院.对外汉语
中文信息处理的现状—三个流派 • 中文信息处理的流派和策略 当前的中文信息处理领域的科技攻关项目都是以解决计算机对自然语言进行理解的问题,也就是以开发智能型的汉语分析系统为奋斗目标的。当前的中文信息处理需要以词义为基础,与句法分析相结合,以句为处理对象,寻找突破。根据指导理论和研究方法的不同,目前国内中文信息处理领域可以分为三个流派。 • 传统计算语言学 以传统计算语言学为基本理论的,主要从词素分析入手,遵循词-短语(词组)-语段-句子的基本研究思路。这一流派的种种理论和方法都是以经验主义的研究方法,也就是以语料统计为基础的。在这个基础上又结合了一些语言规则。 对外经贸大学中文学院.对外汉语
中文信息处理的现状—三个流派 • HNC理论 中科院声学所黄曾阳创立的概念层次网络理论,即HNC理论。这一理论的的新意在于直接从语言深层入手,以语义表达为基础,把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,建立具有语义完备性的词汇层面的表述模式和句子层面的表述模式。 HNC理论认为,自然语言理解的过程就是概念联想脉络激活、扩展、浓缩、转换与存储的过程。因此,HNC设计了局部联想脉络来解决词汇层面的问题,设计了全局联想脉络来解决句类和语义块的问题。 传统----语义取自词典,HNC----语义取自训诂 对外经贸大学中文学院.对外汉语
中文信息处理的现状—三个流派 • 基于内涵模型论的语义分析 谋求在一个逻辑语义框架内来分析词汇及其分类,只要能明白句义,不必过于精细,也就是用逻辑框架来处理词汇理论。代表人物是上海交大陆汝占教授。 对外经贸大学中文学院.对外汉语
中文信息处理的现状—统计方法的不足 • 对统计研究方法的认识 统计和语料库的思想促使语言研究者从对有限语言现象的内省式研究转到对大规模真实语言现象的研究,无疑对词频统计、词语搭配、信息检索与信息抽取等方面的研究有重大意义,因而有学者称其为中文信息处理领域的主流技术。 • 统计方法适用于对随机性过程的描述,而语言作为符号序列是随机性和确定性并存的过程,对此种过程中的跳变现象统计方法无能为力 • 统计NLP的理论本质――行为主义,早已被心理学研究所否定,儿童并非纯粹依靠模仿习得所有语句 • 统计方法无法应对小概率事件,统计过程中平滑手段的注入无法从根本上解决数据稀疏问题 • 统计方法强依赖于语料库,统计NLP的效果与语料库的性质和质量密切相关,而语料库的规模、平衡性、加工深度等诸多问题并没有一个客观统一的评测标准 对外经贸大学中文学院.对外汉语
中文信息处理的现状—当前中文信息处理的特征中文信息处理的现状—当前中文信息处理的特征 • 统计与规则结合 以实用的智能化系统为目标,以大规模语料测试为评价目标 • 基础理论研究与实用系统并重 • 面向Internet的大规模真实文本的智能信息访问 • 基于内容的搜索引擎 • 代表性的系统有北京大学天网,计算所的“天罗”,百度,慧聪等公司的搜索引擎 • 信息自动分类,自动摘要,信息过滤等文本级应用 • 如上海交通大学纳讯公司的自动摘要,复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器 • 信息自动抽取,即将Internet上大量的非结构化的信息,抽取出格式化的数据,以备进一步的搜索应用 • 自动问答,机器翻译等需要更多自然语言处理和理解的应用 对外经贸大学中文学院.对外汉语
中文信息处理的现状--中文信息处理技术发展的问题与应对中文信息处理的现状--中文信息处理技术发展的问题与应对 • 汉语言学家没有为中文信息处理作好语言分析的准备,长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的。 • 中文信息处理研究力量分散而且存在着低层次重复、缺乏统一规范和标准的问题。 • 现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变。 对外经贸大学中文学院.对外汉语
对当前中文信息处理现状的哲学反思 • 理性主义与学科 • 理性主义与语言学 • 理性主义与中文信息处理 • 以有限驾驭无限 对外经贸大学中文学院.对外汉语
“汉语信息处理” 在研究什么? • 实用系统: (1)人工系统的自然语言界面(问答系统) (2)机器翻译与机器辅助翻译 (3)信息检索、信息提取与搜索引擎 (4)文本管理(文本分类与聚类、文献摘要与述评、OCR后处理) (5)词典计算机辅助编纂 (6)领域知识工程(术语提取、知识元数据库、百科全书编撰) (7)语音接口技术(语音识别的后处理、语音合成的预处理) (8)自然语言处理系统评测技术 (9)面向语言本体研究与语言教学的应用 对外经贸大学中文学院.对外汉语
目前国内中文信息处理的主要力量和代表人物 • 北大: 计算语言学研究所:俞士汶、常宝宝、段慧明…… 中文系:陆俭明、詹卫东、袁毓林 • 清华: 智能技术与系统国家重点实验室:孙茂松、周强、陈群秀、张敏 中文系:黄河燕 • 北语: 应用语言学研究所:张普、徐娟、杨尔弘 语言信息处理研究所:宋柔 对外汉语研究中心:邢红兵、郑艳群 • 中科院声学所: 黄曾阳、张全、晋耀红 • 北师大: 中文信息处理研究所:苗传江 • 中科院计算所: 白硕、孙乐、刘群 对外经贸大学中文学院.对外汉语
目前国内中文信息处理的主要力量和代表人物 • 中科院自动化所: 模式识别 • 中文信息学会: 曹右琦、陈群秀 • 国家语委: 冯志伟、靳光瑾、肖航 • 上海交大: 陆汝占 • 哈工大: 李生、刘挺 • 山西大学计算机系: 刘开瑛 • 南师大: 陈小荷 对外经贸大学中文学院.对外汉语
目前国内中文信息处理的主要力量和代表人物 • 武汉大学: 语言与信息研究中心萧国政 • 鲁东大学: 亢世勇 • 人民大学: 张卫国 • 微软研究院: 自然语言处理小组:黄昌宁 • 知网:董振东 • 汉语意合网络:鲁川 • 全国计算语言学联合学术会议 对外经贸大学中文学院.对外汉语
本章参见 • 百度百科----中文信息处理、汉语信息处理 • 黄曾阳. 《HNC(概念层次网络)理论》. 清华大学出版社,1998. • 黄曾阳. 语言概念空间的基本定理和数学物理表示式. 海洋出版社,2004. • 陆汝占,靳光瑾. 现代汉语研究的新视角. 语言文字应用. 2004.2. • 许嘉璐. 现状和设想——试论中文信息处理与现代汉语研究. 中国语文. 2000.6. • 许嘉璐. 研究中文信息处理,需要仰望一下天空. 语言文字应用,2006.2. • 许嘉璐. 语言学研究与中文信息处理. 中文信息,1997.3 • 许嘉璐. 中文信息处理技术现状及相关语言文字研究. 软件世界. 1996.4. • 许嘉璐. 语言文字学论文集. 商务印书馆,2005. • 许嘉璐. 《中文信息处理若干重要问题》序. 《中文信息处理若干重要问题》.科学出版社. 2003. • 张华平. 中文信息处理技术发展简史 • 钟义信. 自然语言理解的全信息方法论. 北京邮电大学学报. 2004.4 对外经贸大学中文学院.对外汉语
思考题 • 名词解释:中文信息处理 • 名词解释:七四八工程 • 名词解释:字处理 • 名词解释:词处理 • 名词解释:句处理 • 中文信息处理和汉语信息处理两个名称有什么区别? • 从汉语本身考虑,中文信息处理的难点有哪些? • 中文信息处理可以分为哪几个发展阶段? • 从处理对象的角度考虑,中文信息处理可以分为哪几个阶段? • 列举目前的中文生语料库、词语语料库、句法语料库。 • 简介许嘉璐关于中文信息处理领域的流派说。 • 基于统计的研究方法存在哪些不足? • 当前中文信息处理有哪几个主要特征? • 简介中文信息处理领域当前重大的基础理论研究成果。 • 黄昌宁先生提出的我国当前计算语言学在基础理论方面面临的两个重大的前沿课题是什么? • 简介董振东先生对于中文信息处理研究的设计。 对外经贸大学中文学院.对外汉语
作业 • 软件体验: • BM-Viavoice使用体验(可使用麦克风的台式电脑可以使用麦克风或自带麦克风的笔记本电脑) • 手机手写输入方式体验 • 手写板键盘体验 • 用OCR操作pdf文档体验 • 四角号码字典 对外经贸大学中文学院.对外汉语