210 likes | 345 Views
2.3 信息表示与编码. 所谓编码,就是利用数字串来标识所处理对象的不同个体。 在计算机中采用二进制意味着所有需要计算机存储并处理的信息,如数值、字母、汉字及其它各种符号、声音、图形、图像等,都要转换成二进制的形式来表示,即 0 和 1 的编码。. 2.3.1 整数的表示. 在数学中的计算数值是用 “ + ” 和 “ - ” 表示正数和负数的,在计算机中只有 0 和 1 ,所以正负号也用 0 和 1 表示,即数值符号数字化。. 机器数. 真值. 0. 0. 0. 0. 0. 1. 0. 1. +5. 机器数. 真值. 符号位. 符号位.
E N D
2.3 信息表示与编码 所谓编码,就是利用数字串来标识所处理对象的不同个体。 在计算机中采用二进制意味着所有需要计算机存储并处理的信息,如数值、字母、汉字及其它各种符号、声音、图形、图像等,都要转换成二进制的形式来表示,即0和1的编码。 2.3.1 整数的表示 在数学中的计算数值是用“+”和“-”表示正数和负数的,在计算机中只有0和1,所以正负号也用0和1表示,即数值符号数字化。
机器数 真值 0 0 0 0 0 1 0 1 +5 机器数 真值 符号位 符号位 1 0 0 0 0 1 0 1 -5 2.3 信息表示与编码 符号位:将二进制数的最高位用于表示“正”或“负”。其中0表示为正,1表示为负。 机器数:正负符号被数值化了的数。 真值:该机器数所表达的数值。
2.3.1 整数的表示 1 1 1 1 0 1 0 1 0 0 0 0 1 0 1 原码 -5 1 反码 1 1 1 1 1 0 1 1 补码 2.3 信息表示与编码 在有符号运算中,需要通过原码、反码、补码转换来完成运算。 原码:正号为0,负号为1,数值部分为二进制绝对值。 反码:正数的反码和原码相同;负数的反码是将其原码除符号位外各位取反。 补码:正数的补码和原码相同;负数的补码是将其反码在末位加1。 +5的原码、反码和补码都是00000101
2.3.1 整数的表示 2.3 信息表示与编码 补码的概念是怎么来的? “模”是指一个系统所能表示的数据个数。按模运算是指运算结果超过模时,模(或模的整数倍)将溢出而只剩下余数。 8位二进制的模为28=256 假设M为模,若数a,b满足a+b=M,则称a,b互为补数。 在有模运算中,减去一个数等于加上这个数对模的补数。
2.3.2 实数的表示 1 0 0 0 0 0 1 1 隐含小数位 2.3 信息表示与编码 定点数 小数点位置固定的数称为定点数。 定点整数:小数点隐含固定在数值部分最右端。定点整数是纯整数,其符号位右边所有的位数表示的是一个整数。 定点整数: (-3) 符号位
2.3.2 实数的表示 0 1 0 0 0 0 0 0 隐含小数位 2.3 信息表示与编码 定点小数:小数点隐含固定在数值部分最左端。定点小数是纯小数。 定点小数: (+0.5) 符号位
2.3.2 实数的表示 2.3 信息表示与编码 浮点数 小数点位置不固定的数称为浮点数,它既有整数部分又有小数部分,如123.55、33.789等。 在计算机中通常把浮点数分成阶码和尾数两部分来表示,也就是平时所说的科学记数法 。为保证不损失有效数字,对尾数进行规格化处理,即保证尾数的最高位为1,实际数值通过阶码进行调整。例如,二进制实数1010.1101可以用0.10101101×2100表示。(注:100等同于十进制的4)
2.3.2 实数的表示 0 0 0 0 0 1 1 0 尾数最高位为1 2.3 信息表示与编码 浮点数:字长4字节,则阶码部分为8位补码定点整数,尾数部分为24位补码定点小数。 例:将十进制数 +55 以浮点数格式存放。 (55)10 = (110111)2 = 0.110111 * 26 (注:6等同于二进制的110) 31 30 25 24 23 22 7 0 1 1 0 0 1 1 0 1 0 0 0 0 0 … 尾数部分 阶码符号位 阶码部分 尾数符号位
2.3.2 实数的表示 0 0 0 0 0 1 0 0 尾数最高位为1 2.3 信息表示与编码 例:将十进制数 -55 以浮点数格式存放。 (略) -(55)10 = -(110111)2 = -0.110111 * 26 其中(-110111)的反码为:1001000,补码:1001001 尾数格式:0.1001(小数点右移2位,指数变为24) 隐含小数位 31 30 25 24 23 22 7 0 0 0 0 1 1 0 0 1 0 0 0 0 0 … 尾数部分 阶码符号位 阶码部分 尾数符号位
2.3.3 十进制数的编码——BCD码 2.3 信息表示与编码 编码和数值是完全不同的! BCD码(8421码):二-十进制编码,用4位二进制码表示1位十进制数。(不能参与运算)例: (13579)10 =(0001 0011 0101 0111 1001)BCD (0110 1000 0000 . 0010 0100)BCD =(680.24 )10
2.3.4西文字符的编码——ASCII码 2.3 信息表示与编码 ASCII码(American Standard Code for Information Interchange) 128个常用字符,用7位二进制编码,占一个字节,最高位0。 其中,控制字符:0~32,127;普通字符:94个。
2.3.5 和汉字有关的编码 2.3 信息表示与编码 • 汉字输入码:操作人员通过键盘输入的汉字编码。 • 数字编码:如区位码; • 拼音编码:如全拼、智能ABC、微软拼音输入法等; • 字形编码:如五笔字型法等 。
2.3 信息表示与编码 (2) 国标码和区位码 1980年颁布(GB2312-80) ,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区使用的中文编码。每个汉字占两个字节的编码。 该编码共收录6763个简体汉字、682个符号,其中汉字部分:一级汉字:3755个,以拼音排序 ;二级汉字:3008个,以偏旁排序 。 所有汉字分94个区,每个区94个汉字。由此构成区位码。而区位码的区码和位码各加32就得到国标码。
2.3 信息表示与编码 (3) 机内码 计算机内部存储和加工汉字所用的编码。不管用哪一种汉字输入法输入的汉字,在计算机内部都是由国标码转换成机内码来表示的。 每个汉字的机内码占两个字节,每个字节最高位为1。 汉字 国标码 汉字机内码 中 8680(01010110 01010000)2 (11010110 11010000)2 华 5942(00111011 00101010)2 (10111011 10101010)2 中 5448(区位码) 华2710 (区位码) 注:十进制表示的国标码的每个字节减32即得区位码。
2.3 信息表示与编码 (4) 汉字字形码 汉字存储在计算机内采用机内码,但输出时必须转换成字形码,再根据字形码输出汉字。字形码又称汉字字模,用于在显示器或打印机上输出各种文字和符号。通常有两种: 点阵汉字:每一个汉字以点阵形式存储,有点的地方为“1”,空白的地方为“0”。有16×16、24×24、48×48点阵等。点阵越大,字形分辨率越好,字形也越美观,但汉字存储的字节数就多,字库也就越庞大。
2.3.5 和汉字有关的编码 2.3 信息表示与编码 矢量汉字:将汉字的笔画轮廓用一组直线和曲线来勾画,并记录存储每一直线和曲线的数字描述(端点及控制点的坐标)。在需要输出时,根据字形轮廓的描述计算出汉字点阵。矢量产生的汉字即使放大仍能保持较好的质量。 汉字字库一般都存放在磁盘上,这种字库称为“软字库”,使用时根据汉字内码到字库中找到相应的字形码,然后调入内存并显示或打印。
计算机处理汉字的基本过程 2.3 信息表示与编码 用户用键盘输入汉字的外码(输入码),然后通过代码转换程序到码表中去检索机内码,汉字内码负责对汉字进行储存、处理、加工。输出时,利用字形检索程序在汉字字模库中查到表示这个汉字的字形码,然后在显示器或打印机上输出。
2.3.5 和汉字有关的编码 2.3 信息表示与编码 • (5) 其它编码 • GBK编码:是对GB2312的扩充。仍采用双字节编码,在此基础上对罕见汉字使用四字节编码,共收录了2.7万个汉字,与国标码兼容,同时收录了藏、蒙、维吾尔等主要少数民族文字。 • BIG5码:台湾、香港等地区使用的繁体汉字编码标准。
2.3.5 和汉字有关的编码 2.3 信息表示与编码 • (5) 其它编码 • UCS码:国际标准化组织公布的可以容纳全世界所有语言文字的编码方案。全球可以共享的编码字符集。采用4字节编码。 • Unicode:UCS码的一个子集,采用2字节表示世界上经常使用的主要文字,如字母、音节文字、符号、中日韩文字、专用字符、兼容字符等。
2.3.6 多媒体信息的数字化 2.3 信息表示与编码 数字化就是对模拟世界的一种量化,表示信息的最小单位是位(bit)——“0”或“1”。多媒体信息在计算机中也要转换为0和1,因此也需要进行编码。也就是说无论是文字、图像、声音或视频,数字化后都可分解为一系列0或1的排列组合。各种多媒体信息在进入到计算机中进行运算、存储、传输等过程中,需要进行数字化处理,输出时再将其还原成各自本身的特性呈现在我们面前。
2.3.6 多媒体信息的数字化 数值 十—二进制转换 数值 二—十进制转换 十—二进制转换 数值 西文 ASCII码 西文 西文形码 ASCII码 西文 内存 汉字 输入码—机内码 汉字 汉字字形码 输入码—机内码 汉字 声像 模数转换 数模转换 声像 模数转换 声像 2.3 信息表示与编码 各种多媒体信息的数字化处理过程示意图