1 / 33

符号( symbol )编码

符号( symbol )编码. 1 字符编码. 2 汉字编码. 3 其他编码. 一、字符编码- ASCII 码. American Standard Code Information Interchange ,美国标准信息交换码; 由美国国家标准化协会 ANSI( American National Standards Institute ) 制定 ; 被国际标准化组织 ISO ( International Organization for Standardization) 指定为标准信息交换码。. 基本 ASCII 码.

Download Presentation

符号( symbol )编码

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 符号(symbol)编码 • 1 字符编码 • 2 汉字编码 • 3 其他编码

  2. 一、字符编码- ASCII码 • American Standard Code Information Interchange,美国标准信息交换码; • 由美国国家标准化协会ANSI( American National Standards Institute )制定; • 被国际标准化组织ISO(International Organization for Standardization)指定为标准信息交换码。

  3. 基本ASCII码 • 最高位为0,范围为00000000B~ 01111111B • 7位ASCII码,7位二进制字符编码; • 表示128种字符编码,包括34种控制字符,52个英文大小写字母,10个数字,32个字符和运算符;

  4. 例如:“1”的ASCII码为00110001,即49, “a”的ASCII码为01100001,即97。

  5. 扩充ASCII码 8位ASCII码,8位二进制字符编码; • 表示256种不同的字符; • 其中00000000B~ 01111111B为基本部分,与基本ASCII码相同,范围为0 ~127,有128种字符; • 10000000B~ 11111111B为扩充部分,范围为128 ~255,有128种字符; • 美国国家标准信息协会给出了编码定义,但该部分编码被大多数非英语国家规定为自己国家语言的字符代码。

  6. 各种输入码 交换码(国标码) 内码 字形码 显示汉字 打印汉字 二、汉字编码 汉字系统的编码转换过程

  7. 汉字输入码 • 汉字输入码是用来完成汉字的输入的汉字编码,也称为汉字的外码。汉字的输入编码汉字与英文不同,因此为了能直接使用英文标准键盘把汉字输入到计算机,就必须为汉字设计相应的输入编码方法。当前采用的方法主要有以下三类: • 数字编码(如电报码,区位码,国标码等) • 音码(如全拼码,简拼码,双拼码等) • 形码(如五笔字型,大众码,仓吉码等)

  8. 汉字交换码 • 1980年国家标准总局颁布了GB2312-80《信息交换用汉字编码字符集·基本集》,称为国标交换码(简称国标码); • 收录了6763个汉字和中文标点符号; • 采用两字节ASCII码对应一个编码,所有汉字字符共分为95个区(0 ~94区),每个区分为95个位(0 ~94位),汉字所在的区号(8位二进制表示)和位号(8位二进制表示)共同组成该字的编码; • 首位为0,与ASCII码完全兼容。

  9. 例如:“南”“京”两个字的国标码如下所示:例如:“南”“京”两个字的国标码如下所示: 区码 位码 [南] 十进制: 68 79   二进制: 01000100 01001111   十六进制: 44 4F[京] 十进制: 62 41   二进制: 00111110 00101001   十六进制: 3E 29 对于“南” 字,他的编码是:68,79,如果我们在计算机种存储该编码,那么,计算机也可以认为存储的是两个英文字符。

  10. 汉字机内码 • 汉字内码是用于汉字信息的存储、交换、检索等操作的机内代码,一般采用两个字节表示。为了与英文字符能相互区别,汉字机内代码中两个字节的最高位均规定为“1”。 • 使用两个字节保存汉字,前一字节保存高位内码,后一字节保存低位内码; • 汉字机内码并不统一,主要包括:GB2312、Big5等 • GB2312机内码和交换码有如下的对应关系: • 高位内码=80H+高位交换码=128D+高位交换码 • 低位内码=80H+低位交换码=128D+低位交换码 • 首位为1。

  11. 例如:“南”“京”两个字的机内码如下所示:例如:“南”“京”两个字的机内码如下所示: [南] 十进制:68+128,79+128= 二进制: 1000100+10000000,1001111+10000000= [京] 十进制: 62+128,41+128 =190,169 二进制: 0111110+10000000,0101001+10000000=10111110,10101001

  12. 由于汉字的机内码比较长,8位区码加8位位码共16位,而且必须紧紧相连在一起才能表示汉字,因此在计算机内要用相连的两个字节(高位字节和低位字节)表示一个完整的汉字

  13. 汉字字形码 • 字形码是指字形的点阵信息的数字代码。存放在汉字库中; • 分为显示字形码和打印字形码两种。根据输出的去向将汉字输出在显示器上或打印机上; • 汉字字形码并无统一的规范。

  14. 字形码是用点阵表示的汉字字形代码,它是汉字的输出形式。根据汉字输出的要求不同,点阵的多少也不同。字形码是用点阵表示的汉字字形代码,它是汉字的输出形式。根据汉字输出的要求不同,点阵的多少也不同。 • 简易汉字为16×16点阵,提高型汉字为24×24点阵、32×32点阵,甚至更高。因此字模点阵的信息量是很大的,所占存储空间也很大。以16×16点阵为例,每个汉字要占用32个字节,国标两级汉字要占用256K字节。因此字模点阵只能用来构成汉字库,而不能用于机内存储。字库中存储了每个汉字的点阵代码。当显示输出或打印输出时才检索字库,输出字模点阵,得到字形。

  15. 例如: “霸”的一种字形码: 64×64点阵 共4096个点

  16. 交换码(国标码) 内码 字形码 显示汉字 打印汉字 汉字编码 • 汉字系统的编码转换过程 各种输入码

  17. 每一种汉字编码都是计算机汉字系统必须的吗?每一种汉字编码都是计算机汉字系统必须的吗?

  18. 各种输入码 交换码(国标码) 内码 字形码 显示汉字 打印汉字 如果没有汉字输入码,我们仍然可以输入汉字。遗憾的是,当我们输入“南京”的时候,我们再也不能输入“nanjing”,而是要输入68,79;62,41这四个枯涩难记的数字。

  19. 各种输入码 交换码(国标码) 内码 字形码 显示汉字 打印汉字 如果没有汉字交换码,输入码可以直接转换为汉字内码。遗憾的是,汉字内码并不统一,这就要求输入码系统提供到各种不同汉字内码的转换功能。

  20. 各种输入码 交换码(国标码) 内码 字形码 显示汉字 打印汉字 如果没有汉字内码,输入码可以取代内码成为汉字的存储编码。同样遗憾的是,各种汉字内码已经在相当长的时间存在,没有一种编码规则能很短时间内取代其他编码。

  21. 各种输入码 交换码(国标码) 内码 字形码 显示汉字 打印汉字 不能假设没有汉字字形码。因为如果没有汉字字形码,我们把汉字输入计算机存储后,我们看不到任何输出,那么,我们输入汉字又有什么意义呢?

  22. 三、其它信息编码 • BCD码 • ISO/IEC 10646 • 为了统一世界文字编码,国际标准化组织公布了“通用多八位编码字符集”的国际标准ISO/IEC 10646,简称UCS (Universal Code Set) • 用四个字节来表示每一个字符,全球文字统一编码。 • Unicode • APPLE公司为彻底解决计算机处理多文种文本而发起制定的通用多文种字符集。对汉字集的处理与ISO 10646相似。

  23. 汉字输入码优缺点比较 (1) 数字编码 • 常用的是国标区位码,用数字串代表一个汉字输入,区位码是将国家标准局公布的6763个两级汉字分为94个区,每个区分94位,实际上是把汉字表示成二维数组,每个汉字在数组中的下标就是区位码。区码和位码各两位十进制数字,因此输入一个汉字需按键4次。例如“中”字位于第54区48位,区位码为5448。 • 数字编码输入的优点是无重码,且输入码与内部编码的转换比较方便,缺点是代码难以记忆

  24. (2) 拼音码 拼音码是以汉语拼音为基础的输入方法,凡掌握汉语拼音的人,不需训练和记忆,即可使用。但汉字同音字太多,输入重码率很高,因此按拼音输入后还必须进行同音字选择,影响了输入速度。

  25. (3) 字型编码 • 字型编码是用汉字的形状来进行编码。汉字总数虽多,但是由一笔一划组成,全部汉字的部件和笔画是有限的。因此,把汉字的笔画部件用字母或数字进行编码,按笔画的顺序依次输入,就能表示一个汉字。 • 例如五笔字型编码是最有影响的一种字型编码方法。除了上述三种编码方法外,为了加快输入速度,在上述方法基础上,发展了词组输入、联想输入等多种快速输入方法。但是都利用了键盘进行“手动”输入。

  26. 理想的输入方式是利用语音或图像识别技术“自动”将拼音或文本输入到计算机内,使计算机能认识汉字,听懂汉语,并将其转换为机内代码表示。目前这种理想已经成为现实。理想的输入方式是利用语音或图像识别技术“自动”将拼音或文本输入到计算机内,使计算机能认识汉字,听懂汉语,并将其转换为机内代码表示。目前这种理想已经成为现实。

  27. 声音 声音是传递信息的重要媒体,是多媒体技术研究中的一个重要内容 1、声音的物理特性 • 机械振动或气流等外力引起周围弹性媒质发生波动,产生声波。声波传到人耳经过人类听觉系统的感知就是声音 • 声音是通过空气传播的一种连续的波,称为声波(sound wave) • 声波到达人耳鼓膜时,人会感到压力的变化,这就是声音(sound)

  28. 幅度(振幅):指声波波形的最高(低)点与时间轴之间的距离,反映声音信号的大小、强弱程度幅度(振幅):指声波波形的最高(低)点与时间轴之间的距离,反映声音信号的大小、强弱程度 • 频率:信号在单位时间内变化的次数,HZ;多个频率声音的复合

  29. 人们对声音的感知不仅与声音幅度有关,还与声音的频率有关:人们对声音的感知不仅与声音幅度有关,还与声音的频率有关: 可听声(audio): 20HZ ~ 20kHZ 次音、亚音信号(subsonic) :<20HZ 超音信号、超声(supersonic) :>20kHZ 300HZ ~ 3kHZ 语音信号(speech)

  30. 模拟信号与数字信号 • 模拟信号:时间或幅度上连续的信号 • 时间上“连续”是指在一个指定的时间范围内声音信号的幅值有无穷多个; • 幅度上“连续”是指幅度的数值有无穷多个; • 数字信号:幅值被限制在有限个数值之内,即幅值只能取有限的几个数值

  31. 习题 • 多媒体技术中媒体信息有哪六种表现方式? • 比较图形与图像,视频与动画的区别? • 当前采用的汉字输入编码有哪几类?比较各自优缺点? • 人耳能感知的声音频率范围是多少?

More Related