790 likes | 994 Views
汉字信息处理. For 对外汉语方向本科生. “ 法新社洛杉矶 8 月 5 日电 新华社派了 22 名记者, 4 名摄影记者和 4 名技术人员在奥运会采访和工作。在全世界报道奥运会的 7000 名记者中,只有中国人用手写他们的报道 ” ----《 参考消息 》 ( 1984 ). “ 汉字不灭,中国必亡! ”. “ 中国等于并没有文字,待到拉丁化的提议出现,这才抓住了解决问题的紧要关键 ” “ 如果不想大家来给旧文字做牺牲,就得 牺牲掉旧文字 ”. “ 要走世界共同的拼音文字道路 ”. 汉字拼音化. 有人认为中国之所以落后,汉字不能与世界文字拼音化同步是一个原因。.
E N D
汉字信息处理 For 对外汉语方向本科生
“法新社洛杉矶8月5日电 新华社派了22名记者,4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中,只有中国人用手写他们的报道”----《参考消息》(1984) “汉字不灭,中国必亡!” “中国等于并没有文字,待到拉丁化的提议出现,这才抓住了解决问题的紧要关键” “如果不想大家来给旧文字做牺牲,就得 牺牲掉旧文字” “要走世界共同的拼音文字道路”
汉字拼音化 • 有人认为中国之所以落后,汉字不能与世界文字拼音化同步是一个原因。 《施氏食狮史》 石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。 十时,适十狮适市。是时,适施氏适市。氏视是十狮, 恃矢势,使是十狮逝世。 氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。 石室拭,氏始试食是十狮尸。食时,时识是十狮尸,实 十石狮尸。试释是事。 汉字拼音化是一个伪问题!
本章提纲 • 文字信息处理 • 汉字的特点 • 汉字的基本属性信息 • 汉字代码体系 • 汉字的输入 • 电脑键盘的匹配与汉字编码 • 汉字的存储与汉字的输出 • 汉字字符编码
文字信息处理 • 文本信息的特点 • 易于传播、所需存储空间小 • 由于世界各国语言文字存在较大差异,交流的群体受到限制 • 计算机从处理数据发展到处理文字信息,代表了应用技术上的一个重大进展 • 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字 • 计算机无论做数值的或任何种类信息的运算或处理,最基本的运算操作就是这种二进制数的演算 。
文字信息处理 • 英文文本信息 • A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个字母。 • 0,1,2,…,9,共10个阿拉伯数字。 • +,−,×,=,>,<,…,!,?,﹡,﹝,( ,﹛,…,共32个图形符号。 • 用于计算机动作控制的控制符号,共34个
ASCII码(American Standard Code for Information Interchange) • 美国信息互换标准代码,是由美国国家标准学会(American National Standard Institute , ANSI )制定的标准的单字节字符编码方案,是基于拉丁字母的一套电脑编码系统,用于基于文本的数据。起始于50年代后期,在1967年定案。它最初是美国国家标准,供不同计算机在相互通信时用作共同遵守的西文字符编码标准,它已被国际标准化组织(International Organization for Standardization, ISO)定为国际标准,称为ISO 646标准。适用于所有拉丁文字字母。它主要用于显示现代英语和其他西欧语言。 • ASCII 码使用指定的 7 位或 8 位二进制数组合来表示 128 或 256 种可能的字符。标准 ASCII 码也叫基础ASCII码,使用 7 位二进制数来表示所有的大写和小写字母,数字 0 到 9、标点符号, 以及在美式英语中使用的特殊控制字符。
Tab Space ASCII码表 • 显示字符:范围为32~126,指能从键盘输入、 可以显示和打印的字符 • 控制字符:范围是0~31,127,主要用来控制输入、 输出设备
字符/字节 • 字节(Byte)是计算机信息技术用于计量存储容量和传输容量的一种计量单位。 • 字符是指计算机中使用的字母、数字、字和符号。 • 1个英文字符存储需要1个字节,2个数字为一个字节,1个汉字字符存储需要2个字节。 • ASCII码 • 每个字符使用一个字节(byte)的信息量,而一个字节包含8位二进制数,实际使用其中的7位,尚留出一位,作为每个字符信息的奇偶校验位
关于字节、字符的单位换算 • 1 艾字节(EiB,Exbibyte)=1024拍字节(2的60次方字节)(1EiB=1024PiB) • 1 拍字节(PB,Pebibyte)=1024太字节(2的50次方字节) (1PiB=1024TiB) • 1太字节(TiB,Tebibyte)=1024吉字节(2的40次方字节) (1TiB=1024GiB) • 1吉字节(GiB,Gibibyte)=1024兆字节(2的30次方字节) (1GiB=1024MiB) • 1兆字节(MiB,Mebibyte)=1024千字节(2的20次方字节) (1MiB=1024KiB) • 1千字节(KiB,Kilibyte)=1024字节(2的10次方字节) (1KiB=1024B) • 1字节(Byte)= 8位(bit)
文字信息处理 • 文字信息处理包含三个环节 • 文字信息输入 • 输入字符-代码 • 文字信息处理 • 增、删、改 • 分类、检索、合并、比较、排序、对齐 • 文字信息输出 • 字形点阵信息的存储 • 针式、喷墨、激光打印
汉字的特点 • 字多 • 形美 • 音少 • 义众 • 类难 • 序隐
字多 • 拼音文字:小字符集 ——比较容易 • 非拼音文字:大字符集 ——难度很大 • 拉丁字母只有26个符号 • 斯拉夫字母只有33个符号 • 阿尔明尼亚字母只有38个符号 • 泰米尔字母只有36个符号 • 缅甸字母只有52个符号 • 泰文字母只有44个符号 • 老挝字母只有27个符号 • 藏文字母只有35个符号 • 韩文字母只有24个符号 • 日文假名只有48个符号 • 据统计,汉字字量超过6万个。最常用的汉字有560个,940个常用字,700个次常用字,扫盲标准有1500个字,占现代常用字使用频度的95%,一般用字形20 902个(ISO/IEC 10646(UCS)),汉字字模已有10万字头,但人们估计现代有15万字头。
形美 • 汉字是二维结构,西文是线性排列组合。 • 汉字编码输入困难 • 汉字拆分:基本笔画、字根、字元 • 由于汉字独特的字形结构,不容易把它们拆分成一些基本笔画、字根或字元的简单(线性)组合,这是汉字输入编码问题难度大的根源所在。
音少 汉语是一种单音节语言 汉语音节是自然语言歧义性的表现 • 声母22 • 韵母38 • 无调音节:416 • 有效音节:1295 一个字对应一个音节,一个音节对应多个汉字
义众、类难、序隐 • 每个字常有2~5种意义,多的达6~9种意义。 • 同一个汉字在不同情况下使用,可以代表多种含义。 • 同样的字在不同情况下用作不同类型。 • 字的排列顺序不如英文字母确定、明显。
文字知识 字量 字形 字音 字序 字义 构字 人名 用字 地名 用字 姓氏 用字 方言 用字 科技 用字 楷化 甲金 用字 外来 用字 化学用字 医药用字 汉字的基本属性信息
汉字基本属性信息—字量 • 历代大型字典收字数量 说文解字 9353 中华字海 85000 声类 11520 康熙字典 47043(47035) 字林 12824 中华大字典48200 玉篇 22726 中文大字典 53768 广韵 26194 汉语大字典 53768(54678) 集韵 53525 大汉和字典(日本)48902(附录:1062) 字汇 33179 中文大字典(台湾) 49905
汉字基本属性信息—字量 • 现代通用字和常用汉字的数量 • 1974年对国内使用的现代汉字综合使用频度的统计,要求覆盖率达到99.99%的情况,所需要的汉字量约在六七千个左右。 • 《信息交换用汉字编码字符集 基本集》(GB 2312—1980) (1979)年中,共收入了6763个汉字。分成两级,第一级为常用汉字,共3755个;第二级为次常用汉字,共3008个。 • 在汉字计算机编码标准中,目前最大的汉字编码是台湾的“国家标准”CNS11643,目前(4.0)共收录可考证之繁简、日、韩语汉字共76,067个,但并不普及,只有在户政系统等少数环境使用。 • 台港民间通用的大五码收录繁体汉字13053个。 • GB18030是中华人民共和国现时最新的内码字集,GBK收录简体、繁体及日语、韩语汉字20912个,而早期的GB2312收录简体汉字6763个。 • Unicode的中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字。 • 1988年1月国家语委《现代汉语常用字表》收字3500个,一级常用字2500个,二级常用字1000个。 • 1998年3月国家语委和新闻出版署《现代汉语通用字表》,7000字。包括了常用字表的3500个
汉字基本属性信息—字量 • 现代通用汉字和常用汉字的覆盖率 汉字序号 10 40 160 950 2400 3800 5200 覆盖率% 11 25 50 90 99 99.9 99.99 • 经测试,常用字表中2500个常用字覆盖率为97.97%,1000个次常用字覆盖率为1.5%,两者合计 99.48% 2006《中国语言生活状况报告》
汉字基本属性信息—字频 • 字频就是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计的材料的总字数的比例。 • 陈鹤琴于1925 年根据六类材料统计了55 万汉字,编出《语体文应用字汇》(4261 字) 。 • 1930 年前后,王文新统计了9 万余字的语言材料,得到小学生应学词汇7199 个,写成《小学分级词汇研究》一文。 • 1950 年9 月中央人民政府教育部社会教育司发布的《常用汉字登记表》收字1017 个 • 1952 年6 月中央人民政府教育部发布的《常用字表》收字2000 个 • 1958 年8月山东省教育厅发布的《普通话常用字表》收字3000 个 • 1962 年中国文字改革委员会发布的《普通话三千常用词表》收词3218 个,是这一时期词汇统计研究最重要的成果 • 1965 年3 月北京市教育局发布的《常用字表》收字3100个
汉字基本属性信息—字频 • 70年代后的字频统计工作 • 1、70年代 “748工程”对2100万汉字语料统计,形成《现代汉字综合使用频度表》。 • 2、1982—1985北航等10个单位对3亿汉字语料统计《三千高频度汉字字表》 • 3、1988年出版的《汉字频度统计》5991字分为五级,有笔画、出现次数、累计次数、累计百分比 • 4、1986年北京语言学院出版《现代汉语频率词典》其中列《汉字频率表》从180万字语料中得出单字4574个。 • 字频属性是选择字符、确定汉字字符数量和进行汉字分级的依据。
汉字基本属性信息—字序 • 现代汉语用字排列的顺序. • (1)义序法 • (2)音序法 • (3)形序法
汉字基本属性信息—字形 • 汉字的笔画 • 汉字笔画数统计 • 简化字和被简化的繁体字以及未简化的汉字集(16339):8画至15画的字数较多,其中12画的字数最多。16339个汉字的平均笔画数为12.7061画。 • 有古体今体,繁体简体,正体异体;而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。 • 汉字基本笔画使用频度。 • 汉字起笔统计。
汉字基本属性信息—字形 • 汉字的部件 • 分析汉字的方法 A 、分析到笔画 B 、分析到偏旁 C 、分析到部首 D 、分析到部件 主张:独体字构成成分分析到笔画,合体字的构成成分应分析到部件. • 汉字部件的定义 • 汉字部件的名称 • 汉字部件名称的规范 • 汉字部件的分级统计. • 汉字末级部件组字频度 • 汉字的结构方式 • 平面分析法的结构方式 • 层次分析法的结构方式
汉字基本属性信息—字音 • 汉语是一种单音节语言,汉语音节是自然语言歧义性的表现 • 同音字 • 以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。有的同音同调字多达66个。 • 多音字 嗯 /en4/、/en0/、/n2/、/n3/、/n4/、/ng2/、/ng3/、ng4/ 呵 /a1/、/a2/、/a3/、/a4/、 /a0/、/he1/、/ke1/ 差/cha/、/chai/、/ci/ 哪/na/、/nai/、/ne/、/nei/
/shi/ /yi/ /shi/ /yi/ /shi/ /yi/ /shi/ /yi/ /shi/ /yi/ 396 412 319 219 200 195 110 69 53 18 搜狗 拼音 微软 拼音 拼音 加加 拼音 智能 紫光 ABC 2008年6月记录
汉字代码体系与中文信息处理过程中汉字代码的变换 • 中文信息处理过程中汉字代码的变换流程
五笔字型输入 拼音输入 汉字代码体系—汉字键盘码 • 汉字键盘码 利用汉字编码方法,从键盘上产生的汉字代码称为汉字键盘码。 唐 他 劳动 蔻 一般每个汉字须击键3.5---4次,信息冗余度大,须压缩和译码,以方便进入计算机系统。
汉字代码体系—汉字交换码 • 汉字交换码是一种用于系统间或计算机通信的汉字信息交换码,它是中文信息处理技术的基础标准。 ASCII码 Unicode码 ……
汉字代码体系—汉字内部码 • 由汉字交换码加上标识信息后形成。根据不同的使用环境和条件,汉字内部码的形式有多种。之所以有汉字内部码这一代码形式,是由中英文兼容技术的要求所引起的。 • 根据不同的标准,如GB 2312—1980或GB 18030—2000、ISO 10646、GB 13000或Unicode工业标准,具体汉字的内部码可以有不同的代码定义,但目前,系统中汉字内部码一般采用流行的双字节代码形式。 • 汉字数量庞大,汉字的存储用16位二进制数作为一个存储空间
GB与GBK简介 • 国标码(GB)是指1981年我国公布的国家标准《信息交换用汉字编码字符集-基本集》,包含:简化汉字,符号,字母,日文假名,共7445个字符;其中包含了6763个汉字,并分作两级: 一级为常用字,3755个,按照拼音排序 二级为次常用字,3008个,按照部首排序。 • GBK 20902个
GB码的编码空间 • 一个字符的国标码由两个部分组成,分别是该字符的区号和位号。 • GB码规定共有94个区,每个区中有94个位。编码空间为:94 * 94 = 8836 个码位1 ~ 9 区是西文字母、数字、日文假名、图形符号16~87区是汉字区,其中 16 ~ 55 区 是一级汉字(40 * 94 - 5 = 3755个)56 ~ 87 区 是二级汉字(32 * 94 = 3008个)10~15,88~94区是用户自定义区
GB与GBK对应的ASCII码 • 一个GBK汉字由高低两位字节组成,这两位字节的取值范围如下: 高位 低位 GB6763 一级 176-215 161-254 (去掉215+(250-254)) 二级 216-247 161-254 GBK扩展 129-160 64-254(127除外) 170-254 64-160(127除外)
汉字代码体系—汉字地址码 • 中文计算机中汉字字形信息一般存放在称为汉字字模库的存储器内。 • 这一存储器实际上是一种单元号连续的存储介质,每个汉字字模存放在字库中某一确定的地址,这一地址信息就称为地址码。 • 输出汉字时,先要把汉字内部码变换成相应汉字的地址码,再由地址码交换成该汉字的字形信息
汉字代码体系 • 汉字字形码 • 中文计算机系统中,存储在系统内的汉字字形信息提供汉字字形码,由它通过输出设备把汉字内部码转换成汉字字形输出。 • 汉字控制码 • 在英文字符系统中,常用的控制符有34个,根据需要可以扩充。在中文系统中,为控制某些汉字设备的动作,可以从扩充的控制符中加以定义,作为专用的控制符使用。
中文信息处理系统 输入层与输出层之间的映射关系
交换码 • 国际标准: • ISO 646信息处理 信息交换用ISO 七位编码字符集。 • ISO 2022信息处理 ISO 七位和八位编码字符集 代码扩充技术。 • ISO 4873信息处理 信息交换用ISO八位编码字符集 编码的结构和规则。 • ISO 6429信息处理 ISO 七位和八位编码字符集 字符成形设备用的增补控制 功能。 • ISO /IEC 10646.1—1993 信息处理—通用多八位编码字符集(UCS)。 • 国家标准: • GB 1988 等效采用ISO 646。 • GB 2311 等效采用ISO 2022。 • GB 2312 《信息交换用汉字编码字符集 基本集》。 • GB/T 7589 《信息交换用汉字编码字符集 第二辅助集》。 • GB/T 7590 《信息交换用汉字编码字符集 第四辅助集》。 • GB 18030—2000 《信息交换用汉字编码字符集 基本集的扩充》。 • GB 13000—1993 《信息技术 通用多八位编码字符集(UCS)》,等同采用ISO /IEC 10646.1—1993国际标准。
汉字的输入 • 汉字输入是指利用汉字的形、音或相关信息通过各种方式把汉字输人到计算机中去的过程,汉字输入技术是汉字信息处理的关键技术。 • 汉字输入的方法有三类: • 汉字字形输入 • 汉字语音输入 • 汉字编码键盘输入
汉字字形识别输入 • 什么是汉字字形识别输入? 也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统高速自动输入的手段和根本出路,是汉语中文信息处理的一种好方法。
汉字字形识别输入---OCR • 所谓OCR (Optical Character Recognition,光学字符识别)技术,是指用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。即扫描成图片----模式匹配----字库查找相应汉字。
汉字字形识别输入 • 汉字字形识别输入的类型 • 联机手写汉字的识别 • 人一面写,机器一面认。这是最简单的一种汉字识别类型。国内比较有名且常用的是汉王笔。 • 印刷体汉字的识别 • 包括两小类:单体印刷体汉字识别,识别印刷在纸上的一种印刷汉字;多体印刷体汉字识别,同时能识别印刷在纸上的宋、仿宋、黑、楷等印刷体汉字。 • 手写汉字的识别 • 包括三个小类:手写印刷体汉字识别;特定人写汉字识别和人机交互式手写汉字识别
汉字字形识别输入 • 汉字字形识别的基本思想与步骤 • 第一步:把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中,形成已知的汉字模。 • 第二步:用图形输入板或光电设备(如图文扫描、光导摄象管扫描、激光扫描等装置)扫描输入一个未知的需要识别的汉字字符,抽取它的特征。 • 第三步:将抽取到的代表未知汉字模式本质的表达形式(即各种特征)和预先存贮在机器中的所有汉字特征一个一个地匹配,匹配用一定的准则进行。 • 最后:在机器存贮的标准汉字模式表达形式的集合中,找出最接近输入汉字特征的那一个,该特征所对应的汉字就是识别结果,最后用相应的内部码来表示它。
汉字字形识别输入 • 汉字字形识别的研究进展 • 汉字字形识别存在的问题 • 印刷质量 • 扫描时的位置 • 汉字识别技术今后研究的主要方向 • 人工神经网络技术用于汉字识别 • 语言学知识用于汉字识别 • 多种识别方法集成
汉字字形识别输入—实例 陈敏和王翠叶最近(1995)报道了我国汉字识别技术的进展情况。这项技术自70年代未起步、目前正向实用化发展,印刷体汉字识别是我国汉字识别研究的主流。1988年已有五六个系统基本达到实用化,并形成商品,它们的主要技术指标达到了世界先进水平。识别字数可达376(3755)~4000个,识别速度为20字/忿(秒)左右,对中等印刷质量文本识别率达到95%~99%,识别字号为3~6号,识别字体的宋、访宋(仿宋)、槽(楷)、票(黑)等,有一定版面分析和盾处埋(后处理)能力,初步具备了适用的人机界面。 联机手写识别1988年已有几个初步实用的装置,其主要技术指标为;(:)识别字数可达6763~D000(12000)个,识别速度与人书写的速度基本相当;初次使用的识别率为80%左右,经常使用可这(达)95%。书写则要求笔形与笔画数比较正确,极常用的少数笔形与笔画可以连笔书写,笔顺不严格要求。
汉字语音识别输入 • 什么是汉字语音输入? 汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,分析接收到的声波抽取分析汉字的语音特征,实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。汉字的语音输入需要计算机装备声卡、麦克风等音频设备。