290 likes | 547 Views
多媒体技术基础. 四川大学 计算机学院 陈 虎 huchen@scu.edu.cn. MPEG 声音. 一、 MPEG-1 Audio 二、 MPEG-2 Audio 三、 MPEG-2 ACC 四、 MPEG-4 Audio. MPEG-1 Audio 、 MPEG-2 Audio 、 MPEG-2 ACC 声音数据压缩编码 —— 感知声音编码 (perceptual audio coding) 利用人的听觉系统的感知特性来达到压缩声音数据的目的
E N D
多媒体技术基础 四川大学 计算机学院 陈 虎 huchen@scu.edu.cn
MPEG声音 一、 MPEG-1 Audio 二、 MPEG-2 Audio 三、 MPEG-2 ACC 四、 MPEG-4 Audio
MPEG-1 Audio 、MPEG-2 Audio、MPEG-2 ACC声音数据压缩编码—— 感知声音编码(perceptual audio coding) 利用人的听觉系统的感知特性来达到压缩声音数据的目的 不同于与波形声音压缩编码(如ADPCM)和参数编码(如LPC) :依据波形本身的相关性和模拟人的发音器官的特性) MPEG声音
对响度的感知“听阈—频率”曲线 MPEG声音
对音高的感知 “音高—频率”曲线 MPEG声音
掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽 时域掩蔽 在时间上相邻的声音之间的掩蔽现象。 两种时阈掩蔽:超前掩蔽和滞后掩蔽 MPEG声音
MPEG声音 心理声学模型(psychoacoustic model) 听觉阈值电平 听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。(大多数人2 kHz~5 kHz) 一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。 听觉掩饰特性 听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。
MPEG声音 MPEG Audio 采用的两种感知编码: 感知子带编码(perceptual sub-band coding) 思想是首先把时域中的声音数据变换到频域,对频域内的子带分量分别进行量化和编码,然后根据心理声学模型确定样本的精度,从而达到压缩数据量的目的。 不局限于只对话音进行编码,也不局限于哪一种声源。 Dolby AC-3编码
MPEG-1 Audio 感知子带编码压缩算法框图
MPEG-1 Audio Dolby AC-3压缩编码算法框图
MPEG-1 Audio MPEG声音编码器结构图
MPEG-1 Audio MPEG声音解码器结构图
MPEG-1 Audio ISO/MPEG audio层1和层2编码器和解码器的结构
MPEG-1 Audio ISO/MPEG audio层3编码器和解码器的结构
MPEG-2 Audio MPEG-1和-2的声音数据规格 参数名称 最大声道数 最大数据传输率 采用频率 样本精度(每个样本的比特数) 8 6.144 Mb/s 16/20/24 48/96 kHz Linear PCM 32/44.1/48 kHz 448 kb/s 压缩 (16 bits) 5.1 Dolby AC-3 16/22.05/24/ 32/44.1/48 kHz 8~640 kb/s MPEG-2 Audio 压缩 (16 bits) 5.1/7.1 MPEG-1 Audio 16 32~448 kb/s 32/44.1/48 kHz 2
MPEG-2 ACC MPEG-2 AAC (Advanced audio coding) 编码思想: 主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。 与MPEG-1声音格式不兼容 适用范围: AAC支持的采用频率可从8 kHz到96 kHz AAC编码器的音源可以是单声道的、立体声的和多声道的声音。(AAC标准可支持48个主声道、16个低频音效加强通道LFE (low frequency effects)、16个配音声道(overdub channel)或者叫做多语言声道(multilingual channel)和16个数据流。)
MPEG-2 ACC MPEG-2 AAC (Advanced audio coding) 压缩率: MPEG-2 AAC压缩比为11:1(即每个声道的数据率为(44.1×16 )/11=64 kb/s)。 在5个声道的总数据率为320 kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。 与MPEG的层2相比,MPEG-2 AAC的压缩率可提高1倍,而且质量更高;与MPEG的层3相比,在质量相同的条件下数据率是它的70%。
MPEG-2 ACC MPEG-2 AAC的配置 开发MPEG-2 AAC标准采用模块化的方法: 把整个AAC系统分解成一系列模块,用标准化的AAC工具(advanced audio coding tools)对模块进行定义 (MPEG Audio标准是对整个系统进行标准化) AAC标准定义了三种配置: 基本配置 低复杂性配置 可变采样率配置
MPEG-4 Audio MPEG-4 Audio标准: 集成从话音~高质量的多通道声音;从自然声音~合成声音 编码方法: 参数编码(parametric coding) 码激励线性预测(code excited linear predictive,CELP)编码 时间/频率T/F(time/frequency)编码 结构化声音SA(structured audio)编码 合成声音:MIDI;TTS
MPEG-4 Audio 自然声音(natural audio) MPEG-4声音编码器支持数据率2 kb/s~64 kb/s之间的自然声音。 三种类型声音编码器:
MPEG-4 Audio 1、参数编码器 使用声音参数编码技术。采样频率为8 kHz的话音(speech),输出数据率为2~4 kb/s;采样频率为8 kHz或16 kHz的声音(audio),输出数据率为4~16 kb/s。 2002年10月28日
MPEG-4 Audio 2、CELP编码器 使用CELP(code excited linear predictive)技术。采样频率为8 kHz的窄带话音或16 kHz的宽带话音,输出数据率6~24 kb/s 2002年10月28日
MPEG-4 Audio 3、T/F编码器 使用时间-频率(time-to-frequency,T/F)技术。这是一种使用矢量量化(vector quantization,VQ)和线性预测的编码器,采样频率为8 kHz的声音信号,输出的数据率大于16 kb/s。
MPEG-4 Audio MPEG-4 Audio编码方框图
MPEG-4 Audio 文-语转换TTS(text-to-speech) 将文本形式的信息转换成自然语音的一种技术,最终目标是使计算机根据文本的内容可带各种语调来朗读任意的文本,输出像人一样清晰而又自然的声音。 具有巨大的应用潜力和商业价值 难点:自然度 语-文转换=语音识别: speech-to- text
MPEG-4 Audio TTS系统方框图