1 / 21

2.3 信息表示与编码

2.3 信息表示与编码. 所谓编码,就是利用数字串来标识所处理对象的不同个体。 在计算机中采用二进制意味着所有需要计算机存储并处理的信息,如数值、字母、汉字及其它各种符号、声音、图形、图像等,都要转换成二进制的形式来表示,即 0 和 1 的编码。. 2.3.1 整数的表示. 在数学中的计算数值是用 “ + ” 和 “ - ” 表示正数和负数的,在计算机中只有 0 和 1 ,所以正负号也用 0 和 1 表示,即数值符号数字化。. 机器数. 真值. 0. 0. 0. 0. 0. 1. 0. 1. +5. 机器数. 真值. 符号位. 符号位.

nayda-cobb
Download Presentation

2.3 信息表示与编码

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2.3 信息表示与编码 所谓编码,就是利用数字串来标识所处理对象的不同个体。 在计算机中采用二进制意味着所有需要计算机存储并处理的信息,如数值、字母、汉字及其它各种符号、声音、图形、图像等,都要转换成二进制的形式来表示,即0和1的编码。 2.3.1 整数的表示 在数学中的计算数值是用“+”和“-”表示正数和负数的,在计算机中只有0和1,所以正负号也用0和1表示,即数值符号数字化。

  2. 机器数 真值 0 0 0 0 0 1 0 1 +5 机器数 真值 符号位 符号位 1 0 0 0 0 1 0 1 -5 2.3 信息表示与编码 符号位:将二进制数的最高位用于表示“正”或“负”。其中0表示为正,1表示为负。 机器数:正负符号被数值化了的数。 真值:该机器数所表达的数值。

  3. 2.3.1 整数的表示 1 1 1 1 0 1 0 1 0 0 0 0 1 0 1 原码 -5 1 反码 1 1 1 1 1 0 1 1 补码 2.3 信息表示与编码 在有符号运算中,需要通过原码、反码、补码转换来完成运算。 原码:正号为0,负号为1,数值部分为二进制绝对值。 反码:正数的反码和原码相同;负数的反码是将其原码除符号位外各位取反。 补码:正数的补码和原码相同;负数的补码是将其反码在末位加1。 +5的原码、反码和补码都是00000101

  4. 2.3.1 整数的表示 2.3 信息表示与编码 补码的概念是怎么来的? “模”是指一个系统所能表示的数据个数。按模运算是指运算结果超过模时,模(或模的整数倍)将溢出而只剩下余数。 8位二进制的模为28=256 假设M为模,若数a,b满足a+b=M,则称a,b互为补数。 在有模运算中,减去一个数等于加上这个数对模的补数。

  5. 2.3.2 实数的表示 1 0 0 0 0 0 1 1 隐含小数位 2.3 信息表示与编码 定点数 小数点位置固定的数称为定点数。 定点整数:小数点隐含固定在数值部分最右端。定点整数是纯整数,其符号位右边所有的位数表示的是一个整数。 定点整数: (-3) 符号位

  6. 2.3.2 实数的表示 0 1 0 0 0 0 0 0 隐含小数位 2.3 信息表示与编码 定点小数:小数点隐含固定在数值部分最左端。定点小数是纯小数。 定点小数: (+0.5) 符号位

  7. 2.3.2 实数的表示 2.3 信息表示与编码 浮点数 小数点位置不固定的数称为浮点数,它既有整数部分又有小数部分,如123.55、33.789等。 在计算机中通常把浮点数分成阶码和尾数两部分来表示,也就是平时所说的科学记数法 。为保证不损失有效数字,对尾数进行规格化处理,即保证尾数的最高位为1,实际数值通过阶码进行调整。例如,二进制实数1010.1101可以用0.10101101×2100表示。(注:100等同于十进制的4)

  8. 2.3.2 实数的表示 0 0 0 0 0 1 1 0 尾数最高位为1 2.3 信息表示与编码 浮点数:字长4字节,则阶码部分为8位补码定点整数,尾数部分为24位补码定点小数。 例:将十进制数 +55 以浮点数格式存放。 (55)10 = (110111)2 = 0.110111 * 26 (注:6等同于二进制的110) 31 30 25 24 23 22 7 0 1 1 0 0 1 1 0 1 0 0 0 0 0 … 尾数部分 阶码符号位 阶码部分 尾数符号位

  9. 2.3.2 实数的表示 0 0 0 0 0 1 0 0 尾数最高位为1 2.3 信息表示与编码 例:将十进制数 -55 以浮点数格式存放。 (略) -(55)10 = -(110111)2 = -0.110111 * 26 其中(-110111)的反码为:1001000,补码:1001001 尾数格式:0.1001(小数点右移2位,指数变为24) 隐含小数位 31 30 25 24 23 22 7 0 0 0 0 1 1 0 0 1 0 0 0 0 0 … 尾数部分 阶码符号位 阶码部分 尾数符号位

  10. 2.3.3 十进制数的编码——BCD码 2.3 信息表示与编码 编码和数值是完全不同的! BCD码(8421码):二-十进制编码,用4位二进制码表示1位十进制数。(不能参与运算)例: (13579)10 =(0001 0011 0101 0111 1001)BCD (0110 1000 0000 . 0010 0100)BCD =(680.24 )10

  11. 2.3.4西文字符的编码——ASCII码 2.3 信息表示与编码 ASCII码(American Standard Code for Information Interchange) 128个常用字符,用7位二进制编码,占一个字节,最高位0。 其中,控制字符:0~32,127;普通字符:94个。

  12. 2.3.5 和汉字有关的编码 2.3 信息表示与编码 • 汉字输入码:操作人员通过键盘输入的汉字编码。 • 数字编码:如区位码; • 拼音编码:如全拼、智能ABC、微软拼音输入法等; • 字形编码:如五笔字型法等 。

  13. 2.3 信息表示与编码 (2) 国标码和区位码 1980年颁布(GB2312-80) ,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区使用的中文编码。每个汉字占两个字节的编码。 该编码共收录6763个简体汉字、682个符号,其中汉字部分:一级汉字:3755个,以拼音排序 ;二级汉字:3008个,以偏旁排序 。 所有汉字分94个区,每个区94个汉字。由此构成区位码。而区位码的区码和位码各加32就得到国标码。

  14. 2.3 信息表示与编码 (3) 机内码 计算机内部存储和加工汉字所用的编码。不管用哪一种汉字输入法输入的汉字,在计算机内部都是由国标码转换成机内码来表示的。 每个汉字的机内码占两个字节,每个字节最高位为1。 汉字 国标码 汉字机内码 中 8680(01010110 01010000)2 (11010110 11010000)2 华 5942(00111011 00101010)2 (10111011 10101010)2 中 5448(区位码) 华2710 (区位码) 注:十进制表示的国标码的每个字节减32即得区位码。

  15. 2.3 信息表示与编码 (4) 汉字字形码 汉字存储在计算机内采用机内码,但输出时必须转换成字形码,再根据字形码输出汉字。字形码又称汉字字模,用于在显示器或打印机上输出各种文字和符号。通常有两种: 点阵汉字:每一个汉字以点阵形式存储,有点的地方为“1”,空白的地方为“0”。有16×16、24×24、48×48点阵等。点阵越大,字形分辨率越好,字形也越美观,但汉字存储的字节数就多,字库也就越庞大。

  16. 2.3.5 和汉字有关的编码 2.3 信息表示与编码 矢量汉字:将汉字的笔画轮廓用一组直线和曲线来勾画,并记录存储每一直线和曲线的数字描述(端点及控制点的坐标)。在需要输出时,根据字形轮廓的描述计算出汉字点阵。矢量产生的汉字即使放大仍能保持较好的质量。 汉字字库一般都存放在磁盘上,这种字库称为“软字库”,使用时根据汉字内码到字库中找到相应的字形码,然后调入内存并显示或打印。

  17. 计算机处理汉字的基本过程 2.3 信息表示与编码 用户用键盘输入汉字的外码(输入码),然后通过代码转换程序到码表中去检索机内码,汉字内码负责对汉字进行储存、处理、加工。输出时,利用字形检索程序在汉字字模库中查到表示这个汉字的字形码,然后在显示器或打印机上输出。

  18. 2.3.5 和汉字有关的编码 2.3 信息表示与编码 • (5) 其它编码 • GBK编码:是对GB2312的扩充。仍采用双字节编码,在此基础上对罕见汉字使用四字节编码,共收录了2.7万个汉字,与国标码兼容,同时收录了藏、蒙、维吾尔等主要少数民族文字。 • BIG5码:台湾、香港等地区使用的繁体汉字编码标准。

  19. 2.3.5 和汉字有关的编码 2.3 信息表示与编码 • (5) 其它编码 • UCS码:国际标准化组织公布的可以容纳全世界所有语言文字的编码方案。全球可以共享的编码字符集。采用4字节编码。 • Unicode:UCS码的一个子集,采用2字节表示世界上经常使用的主要文字,如字母、音节文字、符号、中日韩文字、专用字符、兼容字符等。

  20. 2.3.6 多媒体信息的数字化 2.3 信息表示与编码 数字化就是对模拟世界的一种量化,表示信息的最小单位是位(bit)——“0”或“1”。多媒体信息在计算机中也要转换为0和1,因此也需要进行编码。也就是说无论是文字、图像、声音或视频,数字化后都可分解为一系列0或1的排列组合。各种多媒体信息在进入到计算机中进行运算、存储、传输等过程中,需要进行数字化处理,输出时再将其还原成各自本身的特性呈现在我们面前。

  21. 2.3.6 多媒体信息的数字化 数值 十—二进制转换 数值 二—十进制转换 十—二进制转换 数值 西文 ASCII码 西文 西文形码 ASCII码 西文 内存 汉字 输入码—机内码 汉字 汉字字形码 输入码—机内码 汉字 声像 模数转换 数模转换 声像 模数转换 声像 2.3 信息表示与编码 各种多媒体信息的数字化处理过程示意图

More Related