2.04k likes | 2.18k Views
第四讲. MTI. 多媒体技术. XIDIAN. 数据压缩基础. 主要内容. 数据压缩概述 经典数据压缩理论 香农-范诺与霍夫曼编码 算术编码 行程编码 词典编码 预测编码 变换编码 分析综合编码. 课前思考. 数据压缩技术是多媒体技术的关键技术,也是多媒体技术发展的基础。在多媒体技术发展到的今天,大家已经知道数据是可以压缩的,但数据 为什么要压缩? 为什么能够实现数据压缩? 理论基础与原理是什么?实现数据压缩的具体方法有哪些?目前世界通用的数据压缩标准是什么?其规范与实现的途径又有哪些?. 课前思考.
E N D
第四讲 MTI 多媒体技术 XIDIAN 数据压缩基础
主要内容 • 数据压缩概述 • 经典数据压缩理论 • 香农-范诺与霍夫曼编码 • 算术编码 • 行程编码 • 词典编码 • 预测编码 • 变换编码 • 分析综合编码
课前思考 • 数据压缩技术是多媒体技术的关键技术,也是多媒体技术发展的基础。在多媒体技术发展到的今天,大家已经知道数据是可以压缩的,但数据 • 为什么要压缩? • 为什么能够实现数据压缩? • 理论基础与原理是什么?实现数据压缩的具体方法有哪些?目前世界通用的数据压缩标准是什么?其规范与实现的途径又有哪些?
课前思考 1.什么是数据压缩?2.多媒体数据压缩的必要性和可能性是什么?3.数据压缩编码是如何分类的? 4.量化的目的(作用)是什么?5.量化器设计的要求是什么?6.量化的方法有哪些?7.通过什么是信息熵?8.数据压缩的理论基础是什么?9.霍夫曼编码算法是如何设计的?10.算术编码的原理与实现步骤如何?
课前思考 11.预测编码的原理什么?12.预测编码为什么能够实现压缩?13.预测编码是如何分类的?14.最佳线性预测的方法?15.DPCM与ADPCM预测编码是如何实现的?16.帧间预测编码的方法有那些?其具体的思路如何?17.复习最小均方差准则。18.变换编码的原理是什么?19.最佳正交变换--K-L变换的编码方法?
课前思考 20.为什么说K-L变换是最佳变换?21.复习向量协方差矩阵、矩阵的特征值、特征向量、平均向量、傅里叶变换等概念。 22.多媒体技术的国际标准有哪些?23.静态图像编码标准JPEG都用到了那些编码算法?24.如何实现MPEG-1标准中的帧间数据压缩的?
学习目标 在掌握预测编码、变换编码、统计编码等压缩编码算法的基础上掌握静态图像压缩编码JPEG的原理及实现技术,掌握动态图像压缩编码MPEG的基本原理。
学习指南 由于经典的数据压缩技术是建立在信息论基础上的,因而在学习本章的内容之前建议首先学习信息论中的信息源编码理论,目的是了解数据压缩的理论极限和数据压缩的基本途径,重点掌握"熵"的概念,在理解数据压缩的基本途径的基础上学习统计编码、预测编码、变换编码的基本原理;在理解上述三类编码原理的基础上,掌握各类编码的具体实现算法,有条件的同学最好用一种计算机程序设计语言上机编程实现。
学习指南 在此基础上了解JPEG、MPEG标准的内容,掌握其具体实现的基本思路与算法。有精力的同学可以再多看一些有关MPEG4、MPEG7、MPEG21的文献
学习指南 概述中我们将分以下两个问题进行讨论和讲解:多媒体数据压缩的必要性和可能性、数据压缩技术的分类。 对于基础概念要认真理解。 量化是任何数字压缩方法的基础,本节讲述的目的是为了后续各节的学习打下基础。 通常量化是指模拟信号到数字信号的映射,由于模拟量是连续的,而数字量是离散量,因此量化操作实质上是用有限的离散量代替无限的连续模拟量的多对一映射操作。 量化是任何数字压缩方法的基础,本节讲述的目的是为了后续各节的学习打下基础。
学习指南 第一个要深刻理解的概念就是"信息熵",要从定义、含义、意义等三个方面去理解,也就是说要明确"信息熵"是如何定义的,它与信息量、图像的概率分布之间有什么样的关系,为什么要在图像编码的理论研究中引"熵"值的概念。第二个要理解的概念就是"最佳编码"的概念,要通过对信息论的学习理解霍夫曼编码为什么是最佳编码。第三个要理解算术编码的基本原理。在此基础上学会霍夫曼编码和算术编码算法的设计与实现。
学习指南 为什么要讲(学)信息论(信息熵) 因为信息论是数据压缩的理论基础 信息论讲的是什么(要学习的内容) 数据压缩的理论极限(数据能否进行压缩?能) 数据压缩的基本途径之一--统计编码 (压缩的方法是什么?方法之一是统计编码) 如何进行统计编码算法的设计 霍夫曼编码方法(最佳编码) 算术编码方法
学习指南 建议同学先复习一下“偏微分方程的解法”和“最小均方差准则”。 • 预测编码的原理(预测编码的理论基础是什么?) • 为什么要用实际值减去预测值? • 预测系统由几部分组成? • 信道传送的是什么? • 在什么前提下预测编码的效果会更好? 在此基础上理解DPCM编码原理,通过学习三阶最佳线性预测器的设计理解最佳线性预测。学习ADPCM预测编码原理要先搞清楚为什么要"自适应"?再搞清楚如何实现"自适应"?帧间预测编码是预测编码的应用,始终贯穿着预测编码的原理。
学习指南 复习一下“协方差矩阵”和“特征值和特征向量”。 • K-L变换为什么是最佳变换? • 为什么在实际中次优正交变换--DCT变换应用广泛?
学习指南 • 在静态图像编码标准JPEG中主要用到了DCT离散余弦变换、均匀量化、熵编码、行程编码等前面几节学过的知识;在动态图像编码标准MPEG中也用到了前面学过的帧间预测编码的原理与技术。因而再学习本节之前,要注意对以上知识的复习。在学习过程中注意学习JPEG、MPEG两大国际标准的思路。在此基础上掌握JPEG编码算法。
多媒体数据--声音和音频 • 声音是通过空气传播的一种连续的波——声波 • 声音的强弱:由声波压力的大小决定 • 音调的高低:由声音的频率大小决定 • 声波具有反射(reflection)、折射(refraction)和衍射(diffraction)等
多媒体数据--声音和音频 • 声音信号由许多频率不同的信号组成,这类信号称为复合信号,单一频率的信号称为分量信号。 • 带宽:用来描述组成复合信号的频率范围。例如,高保真声音的频率范围为10~20000Hz ,带宽约为20kHz。 • 声音信号的两个基本参数是频率和幅度。 • 人耳可感知的声音幅度大约在0~120dB; • 人耳可感知的声音频率大约在20~20000Hz • 音频信号:20~20000Hz • 亚音频信号:小于20Hz,人耳听不见 • 话音信号: 300~3000Hz • 超声波信号:大于20kHz
多媒体数据--声音和音频 • 声音信号数字化 • 声音进入计算机的第一步就是数字化,包括:采样和量化。
多媒体数据--声音和音频 • 采样频率 • 根据Nyquist理论,采样频率不应低于声音信号最高频率两倍,可实现无损数字化(可还原声音)。
多媒体数据--声音和音频 • 采样精度(幅度) • 表示1:表示每个声音样本的位数越多,声音质量越高,存储量也越大。 • 表示2:信噪比(signal-to-noise ratio,SNR) • SNR=10lg[(Vsignal)2/(Vnoise)2]=20lg(Vsignal/Vnoise) • 例如: • 假设Vnoise=1,采样精度1位表示Vsignal=21,SNR=6dB • 假设Vnoise=1,采样精度16位表示Vsignal=216,SNR=96dB
多媒体数据--声音和音频 • 通常把声音的质量分为5个等级,由低到高分别是: • 电话(telephone)、调幅广播(amplitude modulation, AM)、调频广播(frequency modulation,FM )、光盘(compact disc,CD)、数字录音带(digital audio tape,DAT) • 这5个等级中,使用的采样频率、样本精度、通道数和数据率如下表:
多媒体数据--声音和音频 • 几种声音文件的存储格式 • .wav (waveform),主要用于PC机上; • .au (audio),主要Unix工作站上; • .aiff (audio interchangeable file format),主要用于苹果机和美国视算科技有限公司的工作站上; • .Snd (sound),同上。
多媒体数据--声音和音频 • .wav文件格式在(Multimedia Programming Interface and Data Specifications 1.0)中有详细描述,该文档是IBM和微软于1981年8月联合开发的一种资源交换文件格式(resource interchange file format,RIFF)。
Group ID=‘RIFF’ Riff Type=‘WAVE’ FORMAT Chunk ckID=‘fmt’ Sound Data Chunk ckID=‘data’ 多媒体数据--声音和音频 • .wav文件的结构 .wav文件结构示意图
多媒体数据--声音和音频 • 计算数字音频文件大小 数据量(Byte)=采样频率(Hz) ×(采样位数/8)×时间(s)×声道数 〖例〗如果采样频率为44.1kHz,分辨率为16位,立体声,录音时间为10秒,符合CD音质的声音文件的大小是多少? 44100Hz×(16/8)×2 ×10=1764 KByte
多媒体数据--图形和图像 • 像素(PPI、DPI、LPI) • 图形(graphics) • 一般指矢量图形。是用一个计算机指令集合来描述和绘制的。主要描述图中线条的形状、位置、颜色等各种属性和参数; • 画面相对简单。 • 图像(image) • 一般指位图图像。是指在空间和亮度上已经离散化的图像。通常把它考虑为一个矩阵,矩阵中的一个元素(像素)对应图像的一个点,相应的值表示该点的灰度或颜色等级; • 由输入设备捕捉的实际场景画面或以数字化形式存储的画面,画面相对复杂。
多媒体数据--图形和图像 • 图像模式 • 根据配色方案: • 全彩图像: • RGB(三原色:Red 红, Green 绿, Blue 蓝) • CMYK(四分色:Cyan 青, Magenta 品红, Yellow 黄, black 黑) • 色盘:256色、16色 • 灰度 • 黑白
多媒体数据--图形和图像 • 几种常见图像文件格式 • 位图文件格式点(用像素值来存放图) • PSD(Photoshop) • GIF(Graphic Interchange Format) • JPEG(Joint Photographic Experts Group) • TIFF(Tagged Image File Format) • BMP(Bit Map) • PNG(Portable Network Graphic) • …… • 矢量图形文件格式(用一系列计算机指令来表示一幅图) • Adobe Illstrator(.ai)、AutoCAD(.dxf)、IBM PIF(.pif) • ……
多媒体数据--图形和图像 • 图像的基本属性 • 分辨率 • 显示分辨率 • 图像分辨率 • 像素深度 • 存储每个像素所用的二进制位数 • 色彩 • 真彩色:三基色直接决定显示设备的基色强度; • 伪彩色:像素值为色彩表入口,找出对应RGB值; • 直接色:用像素值的RGB三个分量分别去查三个 表,找出RGB的值。
多媒体数据--图形和图像 图像数据容量= 宽度×高度×颜色深度/8(Byte) 〖例〗一幅800×600的图像,颜色深度为32位,该图像文件的大小是多少? 800×600 ×(32/8) =1920000 Byte =1.83MByte
多媒体数据--动画和视频 • 动画(animation) • 视觉暂留:计算机动画设计主要是为了能够生成和处理一连串的静态画面,并通过高速放映来欺骗人眼,使人们相信屏幕上的画面是动态的。 • 计算机实现动画的两种方法: • 造型动画:对每一个活动的对象分别进行设计,并构造每一对象的特征,然后用这些对象组成完整的画面,进行实时转换,形成动画。 • 帧动画:是由一幅幅连续的画面组成的画像或图形序列。
4.3 多媒体数据--动画和视频 • 位图图像与动画
多媒体数据--动画和视频 • 动画和视频 • 是连续渐变的静态图像或图形序列,沿时间轴顺次更换显示,从而构成运动视觉的媒体。 • 动画:序列中每帧图像是人工或计算机产生的图像。 • 视频:序列中每帧图像是通过实时摄取自然景象或活动对象。 • 几种动态图像文件格式
多媒体数据--动画和视频 • 几种典型视频标准及存储容量 • CGA :Color Graphics Adapter (320×200 pixels,4 colors) • EGA :Enhanced Graphics Adapter (640×350 pixels,16 colors)
多媒体数据--动画和视频 • 几种典型视频标准及存储容量 • VGA:Vidio Graphics Array (640×480 pixels,256 colors) • 8514/A Display Adapter mode (1024×768 pixels,256 colors)
多媒体数据--动画和视频 • 几种典型视频标准及存储容量 • XGA:Extended Graphics Array (1024×768 pixels,256 colors) • SVGA:Super Vidio Graphics Array (1024×768 pixels, color formats up to 24 bits per pixel)
多媒体数据压缩概述 • 数据压缩的基本原理 • 压缩的必要性 • 通过前面的介绍可知,音频、视频的数据量非常大,如果不进行处理,计算机系统几乎无法对它进行存取和交换。 • 声音、视频、图像数据表示有很大的压缩潜力 • 信息论认为:若信源编码的熵大于信源的实际熵,该信源中一定存在冗余度。 • 原始信源的数据存在着很多冗余度:空间冗余、时间冗余、视觉冗余、听觉冗余等。
多媒体数据压缩概述 • 数据压缩技术的性能指标 • 有三个关键参数评价一个压缩系统 • 压缩比 • 图象质量 • 压缩和解压的速度 另外,也必须考虑每个压缩算法所需的硬件和软件。
多媒体数据压缩概述 • 压缩比 • 压缩性能常常用压缩比定义 • 输入数据和输出数据比 〖例〗一幅512×480pixels图像,24bit/pixel 输入=512×480×(24/8)=737280 byte 输出15000 byte 压缩比=737280/15000=49