980 likes | 1.22k Views
第一篇 媒体. 第 2 章 文字 输入、编码、输出 第 3 章 音频 频率、数字化、格式、 MIDI 、声卡、编码 第 4 章 图形与图像 种类、颜色、属性、格式、 3D 、显卡 第 5 章 动画 概述、传统动画、计算机动画、制作、动画描述语言、 OpenGL 第 6 章 视频与编码标准 电视、视频数字化、编码标准、 MPEG/H.26x 、 AVS[+]. 常见媒体. 第 2 章 文字. 2.1 文字输入 键盘输入、手写输入、语音输入、扫描输入 2.2 字符编码 西文编码、中文编码、国际编码 2.3 文字输出 字形技术、语音合成.
E N D
第一篇 媒体 第2章 文字 输入、编码、输出 第3章 音频 频率、数字化、格式、MIDI、声卡、编码 第4章 图形与图像 种类、颜色、属性、格式、3D、显卡 第5章 动画 概述、传统动画、计算机动画、制作、动画描述语言、OpenGL 第6章 视频与编码标准 电视、视频数字化、编码标准、MPEG/H.26x、AVS[+]
第2章 文字 • 2.1 文字输入 键盘输入、手写输入、语音输入、扫描输入 • 2.2 字符编码 西文编码、中文编码、国际编码 • 2.3 文字输出 字形技术、语音合成
文字 • 文字是语言的记录,可以分为拼音文字(如英文)和象形文字(如中文)两大类,各类文字都是用图形符号(如字母和汉字)来表示的 • 在多媒体技术出现之前,文字是人们书面交流的主要手段。在多媒体技术得到广泛应用的今天,文字也是最重要的媒体元素之一 • 计算机对文字的处理,包括文字的输入、编码与输出 • 本章依次介绍文字输入、字符编码与文字输出,重点放在汉字编码标准之上
2.1 文字输入 • 将文字录入进计算机的方法主要有键盘输入、手写输入、语音输入和扫描识别输入 • 键盘输入是传统和主要的文字录入手段 • 随着计算机技术的发展,方便和快速的手写与语音输入成为解决文字输入瓶颈的有效途径 • 扫描输入主要应用在印刷品的大量文字自动录入方面
2.1.1 键盘输入 • 计算机的通用键盘源自传统的打字机,本身是为英文字母的键入而设计的,非常适合于拼音文字的字母输入。而像汉字这样的象形文字,用键盘输入则十分困难 • 汉字的三个要素是形、音、义。汉字的编码输入主要可以分为形码(如五笔字型)和音码(如全拼)两大类。各种形码和音码输入法,可以结合汉字的词义与语义特性,进行词汇与整句等智能化的输入(如微软拼音输入法)
2.1.2 手写输入 • 随着各种手持设备(如平板电脑、智能手机)的不断出现与普遍使用,联机手写文字的实时识别与输入方法已经得到越来越广泛的应用 • 手写输入是指,人用手指或(特制的)笔在图形板上书写,机器进行实时的识别,并将对应文字的编码输入。 • 汉字的联机手写输入是自动汉字识别中最简单的一种
特点 • 机器识别的是笔画而不是整字 • 识别结果可以及时反馈,所以对识别率要求不高 • 输入方便,不需对输入人员进行培训 • 适合于边想边写 • 可利用图形板方便地进行编辑和修改
技术 • 人写字时手的抖动、书写速度的变化、图形板的量化和感应噪声等,会对识别产生干扰,因此,必须进行必要的平滑和去噪预处理 • 识别时还需进行字符分割,以区分哪些笔画属于同一汉字 • 手写输入在技术涉及图像识别、模式匹配、人工智能、语言文字、书写方式与习惯等方面的知识和方法 • 目前的手写识别方法和技术,还有待于进一步改进和完善,以提高识别率、减少对输入的限制、降低输入设备和识别软件的成本、加强软件的自学习功能
2.1.3 语音输入 • 语音输入是指,利用语音内容的识别技术,将人的话音实时转换为对应文字编码并录入计算机 • 语音输入的核心技术是语音识别技术 • 语音识别技术,现在正在发展过程中,还有待于进一步完善
语音识别技术 • 早期的语音识别,技术一直很落后。到上世纪70年代中,采用线性预测编码LPC和同态信号处理(homomorphic signal process)方法,技术有了长足的进步,但效果不理想。到了上世纪80年代,矢量量化(VQ, Vector Quantization)和隐马尔科夫模型(HMM, Hidden Markov Model)的成功使用,使语音识别在上世纪90年代达到了商用化程度。不过仍然存在问题,识别率一直难以进一步提高,又进入了相对低潮的相持阶段。2011年10月14日苹果公司推出的iPhone 4S手机支持智能语音指令输入,虽然还存在不少问题,但是却引发了业界对语音输入研究和应用的新热潮。 • 语音输入的字词识别,涉及词库、声母分类规则库、声母与韵母结合规则库、声调知识库,这些统称为声学基元模型库;句子识别还涉及语义、语法、句法、语用知识库,这些统称为语言模型库;句子理解则涉及常识库(难!!!)
语音识别的过程图 语音输入 ↓ 数据采集 ↓ 波形自动分析 ↓ 预处理/参数特征提取 分帧后的语音特征矢量集合→↓ 声学模型/时间对准←声学基元模型库 ↓ 语言模型库→ 组句分析 ←统计信息与规则 语句候选→↓ 识别语句输出
语音识别系统分类 • 按可识别词汇量可分为 • 小词汇量语音识别系统(<100) • 中词汇量语音识别系统(100~1000) • 大词汇量语音识别系统(>1000) • 按语音输入方式可分为 • 孤立词语音识别系统(简单) • 连接词语音识别系统(较难) • 连续语音语音识别系统(难) • 按发言人类型可分为 • 特定人(1人) • 限定人(n人) • 非特定人(任意人) 语音识别的目标是开发大词汇量、非特定人的连续语音识别系统
2.1.4 扫描输入 • 扫描输入是指,将图书、期刊、打印材料和印刷品中的印刷体文字,先通过扫描仪变成计算机中的数字图像,然后再利用文字识别软件OCR自动转换成对应得文字编码并录入计算机 • 目前我国研制的多种OCR软件的识别率已经达到95%以上,不过受印刷品质量的影响比较大 • OCR = Optical Character Recognition / Reader ,光学字符识别/阅读器
计算机识别印刷汉字的核心问题是抓住汉字的字形特征,它主要体现在笔画和关键点上计算机识别印刷汉字的核心问题是抓住汉字的字形特征,它主要体现在笔画和关键点上 • 另一个核心问题是版面的分析与理解,包括从图文混排版面中自动排除图形部分、自动区分横排和竖排、自动识别标题和正文、对分栏文本实现自动对接等 • 扫描输入方法除了用于印刷体文字的识别和输入外,也可以用于手写体印刷文字的输入,其文字识别的方法与印刷体文字类似。也与手写实时输入的方法相关,不过失去了笔顺信息,属于整字识别类型
2.2 字符编码 • 字符编码包括西文编码、中文编码和国际通用字符编码,本节的重点放在常用的编码标准上 • 2.2.1 西文编码(ASCII等) • 2.2.2 中文编码(GB 2312、GB 13000、GBK/GB 18030) • 2.2.3 国际通用字符编码(Unicode、ISO/IEC 10646 )
2.2.1 西文编码 • 西文编码主要介绍ASCII字符集,然后简单介绍IBM公司的EBCDIC和两种扩展ASCII显示字符表 • 1.ASCII • 2.EBCDIC • 3.扩展ASCII显示字符
1.ASCII • ASCII(American Standard Code for Information Interchange,美国信息交换标准码)是ANSI于1963年提出、1968年确定的一种英文字符编码标准(ANSI X3.4-1986),广泛应用于计算机、网络和信息产业 • ANSI = American National Standards Institute,美国国家标准协会 • ASCII采用7位二进制数的(共计128个)代码来表示字符(包括图示符和控制符),加上奇偶校验位(或最高位置0),则每个字符由8位(一个字节)组成
ASCII字符集 • ASCII字符集以32个字符为一组 • 第一组(0x00~0x1F)为控制符(非打印符),用于数据处理/通信系统及其相应设备中的信息交换 • 后面的除了第一个字符(SP空格符0x20)和最后一个字符(DEL删除符0x7F)外,全都是可打印(显示)的图示符,包括: • 第二组(0x20 ~0x6F)的数字、空格和常用标点符号 • 第三组(0x40~0x5F)的大写拉丁字母(即英文字母)与少数标点符号 • 第四组(0x60~0x7F)的小写拉丁字母与少数标点符号
ASCII的国际标准 • 1972年,美国的国家标准ASCII与其若干拉丁语系国家的变体,一起成为国际标准ISO 646:1972(Information processing -- ISO 7-bit coded character set for information interchange,信息处理——ISO用于信息交换的七位编码字符集) • 这些变体主要是将ASCII字符集中不常用的符号“# $ @ [ \ ] ^ ` { | } ~”替换为他们各自语言的重音符号 • 1987年ISO 646中的ASCII部分,成为646的国际参考版(IRV = International Reference Version):ISO 646.IRV:1987,但是其中的美元符$被替换为国际通用货币符¤ • 1991年推出的修订版ISO/IEC 646.IRV:1991还原成原始的美国ASCII,所以又被称为ISO 646-US或US-ASCII
替代标准 • 由于ISO 646中各国的变体存在明显的兼容和统一问题,现在已经作废 • 有关编码已经被新的国际标准ISO/IEC 8859-1~16: 1987/1998(Information processing/technology -- 8-bit single-byte coded graphic character sets,信息处理/技术——8位单字节编码的图形字符集)所替代 • 后来ISO 646与ISO/IEC 8859标准又都被纳入ISO/IEC 10646:1993/2003(Information technology -- Universal Multiple-Octet Coded Character Set (UCS),信息技术——通用多八位编码字符集(UCS))标准之中 • 其中的标准编号ISO 10646 = ISO 646 + 10000
标准化组织 • ANSI = American National Standards Institute,美国国家标准协会 • ISO = International Organization for Standardization,国际标准化组织,是由153个国家的国家标准协会联合组成的一个非政府国际组织,总部(中央秘书处)设在瑞士的日内瓦,负责制定适应商业和广泛社会需要的各种国际标准,网址为http://www.iso.org • IEC = International Electrotechnical Commission,国际电工技术委员会,是一个成立于1906年6月的国际标准化权威组织,属于联合国的甲级咨询机构,负责制定关于电工电子各方面的标准,有42个会员国,总部也设在瑞士的日内瓦,网址为http://www.iec.ch,我国于1958年8月参加
2.EBCDIC • 西文的字符编码方案,除了通用的ASCII外,还有IBM公司于1960年代初提出的EBCDIC(Extended Binary-Coded Decimal Interchange Code扩充的二进制编码的十进制交换码) • EBCDIC现在仍然(仅)在IBM的 OS/390 与TPF以及富士通-西门子的BS2000/OSD等大型机的操作系统中使用 • EBCDIC是一种八位编码,其字符的编码方案与ASCII的完全不同
3.扩展ASCII显示字符 • (1)IBM PC • IBM PC的扩展ASCII显示字符由IBM公司为其PC机制定,可以由原始的IBM PC显示器在DOS状态下显示 • (2)Microsoft Windows • Microsoft Windows的扩展ASCII显示字符由微软公司为其Windows操作系统制定,可以在Windows环境的西文状态下被显示
2.2.2 中文编码 • 1.GB 1988与GB 2311 • 2.GB 2312 • 3.汉字编码的辅助集 • 4.Big5 • 5.少数民族文字编码 • 6.GB 13000 • 7.GBK与GB 18030
汉字编码 • 为了计算机处理汉字,必须先对汉字进行编码。由于汉字数量大(《康熙字典》收字47 035个、《汉语大字典》收字54 678个,据统计在形成楷体后出现的汉字约有9万个左右),显然不能像ASCII那样用7位或单字节来进行编码,至少需要两个字节(最多可表示6万5千多个字符) • 1980年我国制定了著名的GB 2312-80双字节汉字编码标准(其中,GB为“国标”这两个汉字的拼音首字母),收汉字6 763个 • 1993年底又推出了等同于国际通用字符编码标准ISO/IEC 10646.1-1993的国家标准GB 13000.1-93,收汉字20 902个 • 由于GB 13000与GB 2312的编码不兼容,作为过渡,2000年又公布了GB 18030-2000(GBK),收汉字2万7千个
1.GB 1988与GB 2311 • 为了能够同时表示和处理汉字和英文,实现中外文混排,汉字编码必须兼容通用的ASCII编码。因此,1980年我国制定了与国际标准ISO 646:1972(即ASCII)对应的国家标准GB 1988-80《信息处理交换用的七位编码字符集》 • 汉字成千上万,不可能像ASCII一样只用单字节的七位来表示,必须扩展到八位和多字节。但是,不能随意扩充,而应该符合国际规范。因此,我国于1980年又制定了与七位代码扩充到八位编码的国际标准ISO 2022兼容的国家标准GB 2311-80《信息处理交换用七位编码字符集的扩充办法》
2.GB 2312 • GB 2312-80《信息交换用汉字编码字符集·基本集》是我国制定的一个使用最广泛的汉字编码的强制性国家标准,由原第四机械工业部的华北计算机研究所(后改名为电子工业部第十五研究所)起草,1980年批准,1981年5月1日起实施 • GB 2312-80是在已有的国家标准GB 1988-80(对应于ISO 646)和GB 2311-80(对应于ISO 2022)的基础上制定的,采用与ISO 2022兼容的GB 2311之7位到八位的代码扩充办法,用双字节编码表示汉字,与ASCII兼容
收录的字符 • GB 2312对应的是汉字的基本集,共收汉字6 763个,可达到99.99%的使用频率。因此,除了极少数生僻的人名、地名和古文外,GB 2312中的汉字已经能基本满足平时的使用了 • 除了汉字外,GB 2312还收录了682个非汉字图形符号,包括202个一般符号(含间隔符、标点、运算符和制表符)、60个序号符、22个数字符、52个英文字母、169个日文假名、48个希腊字母、66个俄文字母、26个汉语拼音符号和37个汉语注音字母 • 所以,在GB 2312-80标准中,共收录了(6 763汉字 + 682非汉字图符 =)7 445图形字符
两级汉字 • GB 2312将其收录的六千多个汉字分成两个级别: • 一级汉字有3 755个,都为使用频率高的常用汉字,为便于检索,像字典那样,将这些汉字按拼音字母顺序排列(同音字再按笔顺的横、竖、撇、捺、点、折序排列) • 二级汉字有3 008个,大部分较生僻,不易掌握读音,所以按部首顺序排列(同部首的字按笔画数排列,同笔画数的字再按笔顺排列)
编码方案 • GB 2312对所有图形字符(包括汉字和非汉字图符)都采用两个字节表示,每个字节的低七位用于编码,最高位全为1,这样可以兼容ASCII编码(字节的最高位全为0) • 虽然在一个字节中,最高位为1的符号位置有128个,但从前面GB 2311的分析可知,为了与ASCII的代码结构兼容,保留了(32 + 2 =)34个控制符位置,最后只有(128 – 34 =)94个符号位可供图形字符编码使用 • 图形字符在代码表中的位置用区位码表示。将码表分成94个区,对应于编码的第一个字节取值0x21~0x7E。每个区又分成94个位,对应于编码的第二个字节取值0x21~0x7E(参见表2-6) • 例如“中山大学”的编码为:中(0xD6D0)、山(0xC9BD)、大(0xB4F3)、学(0xD1A7)
3.汉字编码的辅助集 • 除了GB 2312基本集的6 763个简体汉字外,国家标准还给出了汉字编码字符集的多个辅助集 • 第二/四辅助集,分别增加了7 237 / 7 039个简体汉字 • 第一和三/五辅助集则分别是,与基本集和第二/四辅助集所对应的,繁体汉字字符集的国家标准 • 基本集加上辅助集,共有21 039个简体汉字和21 142个繁体汉字 • 繁体汉字之所以多一些,是因为在第一辅助集中,有时几个繁体字对应一个简体字,因此比基本集多出103个汉字 • 基本集和辅助集的代码页之间靠其编码字节的最高位来区分
4.Big5 • 除了中国大陆使用的简体汉字外,在台湾、香港、澳门和海外华侨社区使用的是传统的繁体汉字 • 简体汉字使用GB(国标)系列编码标准 • 繁体汉字一般使用的是Big5内码(大五码),即台湾的“资讯工业策进会”发布的《标准交换码(Ⅲ码)》,收录汉字13 053个 • Big5内码是1984年由台湾财团法人资讯工业策进会与宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众 (FIC)等五大软件公司联合推出,故称为大五码
5.少数民族文字编码 • 中国共有56个民族,除了汉、回、满族一般使用汉语外,其他少数民族大多有自己的民族语言 • 我国各民族使用的50多种文字,可以分为字母式结构文字和非字母式结构文字两大类 • 字母式结构的有拉丁文、斯拉夫文、蒙古文、维吾尔文、哈萨克文、藏文和朝鲜文等字母式 • 非字母式结构的有汉字、象形文字、图画文字和音节文字等 • 各民族文字的书写方向也有不同: • 壮文、藏文、朝鲜文、彝文等的字从左到右、行从上到下 • 维吾尔文、哈萨克文和柯尔克孜文等的字从右到左、行从上到下 • 蒙古文和满文的字从上到下、行从左到右 • 汉字的书写方向有两种: • 大陆的简体汉字的字从左到右、行从上到下 • 港台与古旧书的繁体汉字的字从上到下、行从右到左
国家标准 • 下面按发布时间列出若干已经公布的我国少数民族文字编码集的国家标准(这些字符集一般分成两类:对字母式结构文字采用八位编码、对非字母式结构文字采用双字节编码): • GB 8045-87《信息处理交换用蒙古文七位和八位编码图形字符集》,收82个蒙古文字母和12个其他符号,共94个字符 • GB 12050-89《信息处理交换用维吾尔文编码图形字符集》,收32个维吾尔文字母、一个维吾尔文复合字符和37个其他符号,共70个字符 • GB 12052-89《信息交换用朝鲜文编码字符集》,收5297个朝鲜文字和682个其他符号(与GB 2132同),共5 979个字符 • GB 13134-91《信息交换用彝文编码字符集》,收1165个彝文字符和688个其他符号,共1853个字符 • GB 16959-1997《信息技术 信息交换用藏文编码字符集 基本集》,收41个藏文字母、36个藏文主字、13个元音字符、12个语音字符、10个藏文数字、10个半值符、一个控制用连接符和46个其他藏文图形符号,共169个字符
6.GB 13000 • GB 13000是与ISO/IEC 10646等价的国际通用编码字符集标准,收汉字2万多个,但是与GB 2312和GBK不兼容 • 1993年5月ISO与IEC联合推出了可用于世界各种文字的通用编码字符集的国际标准的第1部分: • ISO/IEC 10646-1:1993 Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane(信息技术——通用多八位编码字符集(UCS)——第1部分:体系结构与基本多文种平面) • 该标准收字符9.6万个,几乎涵盖世界上的所有文字,其中包含汉字21 003个。 • 1993年底我国推出了等同于国际标准ISO/IEC 10646.1:1993的强制性国家标准: • GB 13000.1-93《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》 • 该标准于1993年12月24日被国家技术监督局批准,1994年8月1日起实施
GB 13000的主要特点 • 世界各语言文种字符统一编码,避免冲突,便于国际交流 • 编码空间宽阔连续,每个图形字符的编码唯一(一字一码),不再存在兼容性问题 • 按文种而不是按语言编码,避免重复和浪费(如中日韩汉字的统一编码CJK) • 与GB 2312和GBK不兼容
体系结构 • UCS的体系结构是基于所谓“多八位”的,而“八位”就是一个字节,“多八位”就是多个字节 • UCS采用4个字节来表征组、面、行、位的四维空间 • 整个UCS空间包含128个组(0x00组~0x7F组),每组有256个平面(0x00平面~0xFF平面),每个平面有256行,每行又由256个字位构成 • UCS共有(128 × 256 =)32 768个平面,每个平面有(256 × 256 =)65 536个字位,每个字位对应于一个字符的编码 • 目前的编码只限于00组,已经定义的平面有00组的00平面——称之为基本多文种平面BMP(Basic Multilingual Plane) ,及若干辅助平面