汉字信息处理

汉字信息处理 For 对外汉语方向本科生

“法新社洛杉矶8月5日电 新华社派了22名记者，4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中，只有中国人用手写他们的报道”----《参考消息》（1984） “汉字不灭，中国必亡！” “中国等于并没有文字，待到拉丁化的提议出现，这才抓住了解决问题的紧要关键” “如果不想大家来给旧文字做牺牲，就得牺牲掉旧文字” “要走世界共同的拼音文字道路”

汉字拼音化 • 有人认为中国之所以落后，汉字不能与世界文字拼音化同步是一个原因。《施氏食狮史》石室诗士施氏，嗜狮，誓食十狮。氏时时适市视狮。十时，适十狮适市。是时，适施氏适市。氏视是十狮，恃矢势，使是十狮逝世。氏拾是十狮尸，适石室。石室湿，氏使侍拭石室。石室拭，氏始试食是十狮尸。食时，时识是十狮尸，实十石狮尸。试释是事。汉字拼音化是一个伪问题！

本章提纲 • 文字信息处理 • 汉字的特点 • 汉字的基本属性信息 • 汉字代码体系 • 汉字的输入 • 电脑键盘的匹配与汉字编码 • 汉字的存储与汉字的输出 • 汉字字符编码

文字信息处理 • 文本信息的特点 • 易于传播、所需存储空间小 • 由于世界各国语言文字存在较大差异，交流的群体受到限制 • 计算机从处理数据发展到处理文字信息，代表了应用技术上的一个重大进展 • 文字信息处理的实质，是先把文字信息数字化，即用一个固定的数码代表一个字母或文字 • 计算机无论做数值的或任何种类信息的运算或处理，最基本的运算操作就是这种二进制数的演算。

文字信息处理 • 英文文本信息 • A，B，C，…，X，Y，Z，共26个字母，包括大写和小写形式，共52个字母。 • 0，1，2，…，9，共10个阿拉伯数字。 • +，−，×，=，>，<，…，！，?，﹡，﹝，( ，﹛，…，共32个图形符号。 • 用于计算机动作控制的控制符号，共34个

ASCII码（American Standard Code for Information Interchange） • 美国信息互换标准代码，是由美国国家标准学会(American National Standard Institute , ANSI )制定的标准的单字节字符编码方案，是基于拉丁字母的一套电脑编码系统，用于基于文本的数据。起始于50年代后期，在1967年定案。它最初是美国国家标准，供不同计算机在相互通信时用作共同遵守的西文字符编码标准，它已被国际标准化组织（International Organization for Standardization, ISO）定为国际标准，称为ISO 646标准。适用于所有拉丁文字字母。它主要用于显示现代英语和其他西欧语言。 • ASCII 码使用指定的 7 位或 8 位二进制数组合来表示 128 或 256 种可能的字符。标准 ASCII 码也叫基础ASCII码，使用 7 位二进制数来表示所有的大写和小写字母，数字 0 到 9、标点符号，以及在美式英语中使用的特殊控制字符。

Tab Space ASCII码表 • 显示字符：范围为32~126，指能从键盘输入、可以显示和打印的字符 • 控制字符：范围是0~31，127，主要用来控制输入、输出设备

ASCII码表基本集（2,8,10,16进制）

字符/字节 • 字节(Byte)是计算机信息技术用于计量存储容量和传输容量的一种计量单位。 • 字符是指计算机中使用的字母、数字、字和符号。 • 1个英文字符存储需要1个字节，2个数字为一个字节，1个汉字字符存储需要2个字节。 • ASCII码 • 每个字符使用一个字节(byte)的信息量，而一个字节包含8位二进制数，实际使用其中的7位，尚留出一位，作为每个字符信息的奇偶校验位

关于字节、字符的单位换算 • 1 艾字节（EiB,Exbibyte）=1024拍字节（2的60次方字节）（1EiB=1024PiB） • 1 拍字节（PB,Pebibyte）=1024太字节（2的50次方字节）（1PiB=1024TiB） • 1太字节（TiB,Tebibyte）=1024吉字节（2的40次方字节）　　（1TiB=1024GiB） • 1吉字节（GiB,Gibibyte）=1024兆字节（2的30次方字节）　　（1GiB=1024MiB） • 1兆字节（MiB,Mebibyte）=1024千字节（2的20次方字节）　　（1MiB=1024KiB） • 1千字节（KiB,Kilibyte）=1024字节（2的10次方字节）（1KiB=1024B） • 1字节（Byte）= 8位（bit）

文字信息处理 • 文字信息处理包含三个环节 • 文字信息输入 • 输入字符-代码 • 文字信息处理 • 增、删、改 • 分类、检索、合并、比较、排序、对齐 • 文字信息输出 • 字形点阵信息的存储 • 针式、喷墨、激光打印

汉字的特点 • 字多 • 形美 • 音少 • 义众 • 类难 • 序隐

字多 • 拼音文字：小字符集 ——比较容易 • 非拼音文字：大字符集 ——难度很大 • 拉丁字母只有26个符号 • 斯拉夫字母只有33个符号 • 阿尔明尼亚字母只有38个符号 • 泰米尔字母只有36个符号 • 缅甸字母只有52个符号 • 泰文字母只有44个符号 • 老挝字母只有27个符号 • 藏文字母只有35个符号 • 韩文字母只有24个符号 • 日文假名只有48个符号 • 据统计，汉字字量超过6万个。最常用的汉字有560个，940个常用字，700个次常用字，扫盲标准有1500个字，占现代常用字使用频度的95%，一般用字形20 902个(ISO/IEC 10646(UCS))，汉字字模已有10万字头，但人们估计现代有15万字头。

形美 • 汉字是二维结构，西文是线性排列组合。 • 汉字编码输入困难 • 汉字拆分：基本笔画、字根、字元 • 由于汉字独特的字形结构，不容易把它们拆分成一些基本笔画、字根或字元的简单(线性)组合，这是汉字输入编码问题难度大的根源所在。

音少汉语是一种单音节语言汉语音节是自然语言歧义性的表现 • 声母22 • 韵母38 • 无调音节：416 • 有效音节：1295 一个字对应一个音节，一个音节对应多个汉字

义众、类难、序隐 • 每个字常有2～5种意义，多的达6～9种意义。 • 同一个汉字在不同情况下使用，可以代表多种含义。 • 同样的字在不同情况下用作不同类型。 • 字的排列顺序不如英文字母确定、明显。

文字知识 字量字形字音字序字义构字人名用字地名用字姓氏用字方言用字科技用字楷化甲金用字外来用字化学用字医药用字汉字的基本属性信息

汉字基本属性信息—字量 • 历代大型字典收字数量说文解字 9353 中华字海 85000 声类 11520 康熙字典 47043（47035）字林 12824 中华大字典48200 玉篇 22726 中文大字典 53768 广韵 26194 汉语大字典 53768（54678）集韵 53525 大汉和字典（日本）48902（附录：1062）字汇 33179 中文大字典（台湾） 49905

汉字基本属性信息—字量 • 现代通用字和常用汉字的数量 • 1974年对国内使用的现代汉字综合使用频度的统计，要求覆盖率达到99.99%的情况，所需要的汉字量约在六七千个左右。 • 《信息交换用汉字编码字符集基本集》(GB 2312—1980) (1979)年中，共收入了6763个汉字。分成两级，第一级为常用汉字，共3755个；第二级为次常用汉字，共3008个。 • 在汉字计算机编码标准中，目前最大的汉字编码是台湾的“国家标准”CNS11643，目前（4.0）共收录可考证之繁简、日、韩语汉字共76,067个，但并不普及，只有在户政系统等少数环境使用。 • 台港民间通用的大五码收录繁体汉字13053个。 • GB18030是中华人民共和国现时最新的内码字集，GBK收录简体、繁体及日语、韩语汉字20912个，而早期的GB2312收录简体汉字6763个。 • Unicode的中日韩统一表意文字基本字集则收录汉字20902个，另有两个扩展区，总数亦高达七万多字。 • 1988年1月国家语委《现代汉语常用字表》收字3500个，一级常用字2500个，二级常用字1000个。 • 1998年3月国家语委和新闻出版署《现代汉语通用字表》，7000字。包括了常用字表的3500个

汉字基本属性信息—字量 • 现代通用汉字和常用汉字的覆盖率汉字序号 10 40 160 950 2400 3800 5200 覆盖率% 11 25 50 90 99 99.9 99.99 • 经测试，常用字表中2500个常用字覆盖率为97.97%，1000个次常用字覆盖率为1.5%，两者合计 99.48% 2006《中国语言生活状况报告》

汉字基本属性信息—字频 • 字频就是一个汉字的相对使用频率，也就是一个汉字使用次数与所统计的材料的总字数的比例。 • 陈鹤琴于1925 年根据六类材料统计了55 万汉字，编出《语体文应用字汇》(4261 字) 。 • 1930 年前后，王文新统计了9 万余字的语言材料，得到小学生应学词汇7199 个，写成《小学分级词汇研究》一文。 • 1950 年9 月中央人民政府教育部社会教育司发布的《常用汉字登记表》收字1017 个 • 1952 年6 月中央人民政府教育部发布的《常用字表》收字2000 个 • 1958 年8月山东省教育厅发布的《普通话常用字表》收字3000 个 • 1962 年中国文字改革委员会发布的《普通话三千常用词表》收词3218 个，是这一时期词汇统计研究最重要的成果 • 1965 年3 月北京市教育局发布的《常用字表》收字3100个

汉字基本属性信息—字频 • 70年代后的字频统计工作 • 1、70年代 “748工程”对2100万汉字语料统计，形成《现代汉字综合使用频度表》。 • 2、1982—1985北航等10个单位对3亿汉字语料统计《三千高频度汉字字表》 • 3、1988年出版的《汉字频度统计》5991字分为五级，有笔画、出现次数、累计次数、累计百分比 • 4、1986年北京语言学院出版《现代汉语频率词典》其中列《汉字频率表》从180万字语料中得出单字4574个。 • 字频属性是选择字符、确定汉字字符数量和进行汉字分级的依据。

汉字基本属性信息—字序 • 现代汉语用字排列的顺序. • (1)义序法 • (2)音序法 • (3)形序法

汉字基本属性信息—字形 • 汉字的笔画 • 汉字笔画数统计 • 简化字和被简化的繁体字以及未简化的汉字集(16339)：8画至15画的字数较多，其中12画的字数最多。16339个汉字的平均笔画数为12.7061画。 • 有古体今体，繁体简体，正体异体；而且笔画相差悬殊，少的一笔，多的达36笔，简化后平均为9.8笔。 • 汉字基本笔画使用频度。 • 汉字起笔统计。

汉字基本属性信息—字形 • 汉字的部件 • 分析汉字的方法 A 、分析到笔画 B 、分析到偏旁 C 、分析到部首 D 、分析到部件主张：独体字构成成分分析到笔画，合体字的构成成分应分析到部件. • 汉字部件的定义 • 汉字部件的名称 • 汉字部件名称的规范 • 汉字部件的分级统计. • 汉字末级部件组字频度 • 汉字的结构方式 • 平面分析法的结构方式 • 层次分析法的结构方式

汉字基本属性信息—字音 • 汉语是一种单音节语言，汉语音节是自然语言歧义性的表现 • 同音字 • 以1万个汉字计算，每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。有的同音同调字多达66个。 • 多音字嗯 /en4/、/en0/、/n2/、/n3/、/n4/、/ng2/、/ng3/、ng4/ 呵 /a1/、/a2/、/a3/、/a4/、 /a0/、/he1/、/ke1/ 差/cha/、/chai/、/ci/ 哪/na/、/nai/、/ne/、/nei/

/shi/ /yi/ /shi/ /yi/ /shi/ /yi/ /shi/ /yi/ /shi/ /yi/ 396 412 319 219 200 195 110 69 53 18 搜狗拼音微软拼音拼音加加拼音智能紫光 ABC 2008年6月记录

汉字代码体系与中文信息处理过程中汉字代码的变换 • 中文信息处理过程中汉字代码的变换流程

五笔字型输入 拼音输入汉字代码体系—汉字键盘码 • 汉字键盘码利用汉字编码方法，从键盘上产生的汉字代码称为汉字键盘码。唐他劳动蔻一般每个汉字须击键3.5---4次，信息冗余度大，须压缩和译码，以方便进入计算机系统。

汉字代码体系—汉字交换码 • 汉字交换码是一种用于系统间或计算机通信的汉字信息交换码，它是中文信息处理技术的基础标准。 ASCII码 Unicode码 ……

汉字代码体系—汉字内部码 • 由汉字交换码加上标识信息后形成。根据不同的使用环境和条件，汉字内部码的形式有多种。之所以有汉字内部码这一代码形式，是由中英文兼容技术的要求所引起的。 • 根据不同的标准，如GB 2312—1980或GB 18030—2000、ISO 10646、GB 13000或Unicode工业标准，具体汉字的内部码可以有不同的代码定义，但目前，系统中汉字内部码一般采用流行的双字节代码形式。 • 汉字数量庞大，汉字的存储用16位二进制数作为一个存储空间

ASCII码表扩展集

GB与GBK简介 • 国标码(GB)是指1981年我国公布的国家标准《信息交换用汉字编码字符集－基本集》，包含：简化汉字，符号，字母，日文假名，共7445个字符；其中包含了6763个汉字，并分作两级：一级为常用字，3755个，按照拼音排序二级为次常用字，3008个，按照部首排序。 • GBK 20902个

GB码的编码空间 • 一个字符的国标码由两个部分组成，分别是该字符的区号和位号。 • GB码规定共有94个区，每个区中有94个位。编码空间为：94 * 94 = 8836 个码位1 ～ 9 区是西文字母、数字、日文假名、图形符号16～87区是汉字区，其中 16 ～ 55 区是一级汉字（40 * 94 - 5 = 3755个）56 ～ 87 区是二级汉字（32 * 94 = 3008个）10～15，88～94区是用户自定义区

GB与GBK对应的ASCII码 • 一个GBK汉字由高低两位字节组成，这两位字节的取值范围如下：高位低位 GB6763 一级 176-215 161-254 （去掉215+(250-254)）二级 216-247 161-254 GBK扩展 129-160 64-254(127除外) 170-254 64-160(127除外)

汉字代码体系—汉字地址码 • 中文计算机中汉字字形信息一般存放在称为汉字字模库的存储器内。 • 这一存储器实际上是一种单元号连续的存储介质，每个汉字字模存放在字库中某一确定的地址，这一地址信息就称为地址码。 • 输出汉字时，先要把汉字内部码变换成相应汉字的地址码，再由地址码交换成该汉字的字形信息

汉字代码体系 • 汉字字形码 • 中文计算机系统中，存储在系统内的汉字字形信息提供汉字字形码，由它通过输出设备把汉字内部码转换成汉字字形输出。 • 汉字控制码 • 在英文字符系统中，常用的控制符有34个，根据需要可以扩充。在中文系统中，为控制某些汉字设备的动作，可以从扩充的控制符中加以定义，作为专用的控制符使用。

中文信息处理系统 输入层与输出层之间的映射关系

中文信息处理系统五层结构模型

交换码 • 国际标准： • ISO 646信息处理信息交换用ISO 七位编码字符集。 • ISO 2022信息处理 ISO 七位和八位编码字符集代码扩充技术。 • ISO 4873信息处理信息交换用ISO八位编码字符集编码的结构和规则。 • ISO 6429信息处理 ISO 七位和八位编码字符集字符成形设备用的增补控制功能。 • ISO /IEC 10646.1—1993 信息处理—通用多八位编码字符集(UCS)。 • 国家标准： • GB 1988 等效采用ISO 646。 • GB 2311 等效采用ISO 2022。 • GB 2312 《信息交换用汉字编码字符集基本集》。 • GB/T 7589 《信息交换用汉字编码字符集第二辅助集》。 • GB/T 7590 《信息交换用汉字编码字符集第四辅助集》。 • GB 18030—2000 《信息交换用汉字编码字符集基本集的扩充》。 • GB 13000—1993 《信息技术通用多八位编码字符集(UCS)》，等同采用ISO /IEC 10646.1—1993国际标准。

汉字的输入 • 汉字输入是指利用汉字的形、音或相关信息通过各种方式把汉字输人到计算机中去的过程，汉字输入技术是汉字信息处理的关键技术。 • 汉字输入的方法有三类： • 汉字字形输入 • 汉字语音输入 • 汉字编码键盘输入

汉字输入—符号层的信息处理

汉字字形识别输入 • 什么是汉字字形识别输入？也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机，也就是用计算机自动辨别印刷或书写在纸（或其他介质）上的汉字。它属于模式识别和人工智能的范畴，是新一代计算机智能接口的一个重要组成部分，在应用上它是汉字信息处理系统高速自动输入的手段和根本出路，是汉语中文信息处理的一种好方法。

汉字字形识别输入---OCR • 所谓OCR （Optical Character Recognition，光学字符识别）技术，是指用电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。即扫描成图片----模式匹配----字库查找相应汉字。

汉字字形识别输入 • 汉字字形识别输入的类型 • 联机手写汉字的识别 • 人一面写，机器一面认。这是最简单的一种汉字识别类型。国内比较有名且常用的是汉王笔。 • 印刷体汉字的识别 • 包括两小类：单体印刷体汉字识别，识别印刷在纸上的一种印刷汉字；多体印刷体汉字识别，同时能识别印刷在纸上的宋、仿宋、黑、楷等印刷体汉字。 • 手写汉字的识别 • 包括三个小类：手写印刷体汉字识别；特定人写汉字识别和人机交互式手写汉字识别

汉字字形识别输入 • 汉字字形识别的基本思想与步骤 • 第一步：把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中，形成已知的汉字模。 • 第二步：用图形输入板或光电设备（如图文扫描、光导摄象管扫描、激光扫描等装置）扫描输入一个未知的需要识别的汉字字符，抽取它的特征。 • 第三步：将抽取到的代表未知汉字模式本质的表达形式（即各种特征）和预先存贮在机器中的所有汉字特征一个一个地匹配，匹配用一定的准则进行。 • 最后：在机器存贮的标准汉字模式表达形式的集合中，找出最接近输入汉字特征的那一个，该特征所对应的汉字就是识别结果，最后用相应的内部码来表示它。

汉字字形识别输入 • 汉字字形识别的研究进展 • 汉字字形识别存在的问题 • 印刷质量 • 扫描时的位置 • 汉字识别技术今后研究的主要方向 • 人工神经网络技术用于汉字识别 • 语言学知识用于汉字识别 • 多种识别方法集成

汉字字形识别输入—实例 陈敏和王翠叶最近（1995）报道了我国汉字识别技术的进展情况。这项技术自70年代未起步、目前正向实用化发展，印刷体汉字识别是我国汉字识别研究的主流。1988年已有五六个系统基本达到实用化，并形成商品，它们的主要技术指标达到了世界先进水平。识别字数可达376（3755）～4000个，识别速度为20字／忿（秒）左右，对中等印刷质量文本识别率达到95％～99％，识别字号为3～6号，识别字体的宋、访宋（仿宋）、槽（楷）、票（黑）等，有一定版面分析和盾处埋（后处理）能力，初步具备了适用的人机界面。联机手写识别1988年已有几个初步实用的装置，其主要技术指标为；（：）识别字数可达6763～D000（12000）个，识别速度与人书写的速度基本相当；初次使用的识别率为80％左右，经常使用可这（达）95％。书写则要求笔形与笔画数比较正确，极常用的少数笔形与笔画可以连笔书写，笔顺不严格要求。

汉字语音识别输入 • 什么是汉字语音输入？汉字语音识别输入就是通过“说”和“听”来和计算机交换信息，即利用声音识别技术，分析接收到的声波抽取分析汉字的语音特征，实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息，以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。汉字的语音输入需要计算机装备声卡、麦克风等音频设备。

汉字信息处理

汉字信息处理

Presentation Transcript