多媒体技术

多媒体技术 中南大学信息科学与工程学院黄东军

第八章 MPEG音频

1 听觉系统的感知特性 1.1 对响度的感知

1 听觉系统的感知特性 • 1.1 对响度的感知 • 观察结论： • 存在听阈和听觉盲区 • 存在痛阈 • 听觉系统对2kHz~4KHz的声音最敏感

1 听觉系统的感知特性 1.2 对音高的感知 Mel = 1000 log 2 (f + 1) 观察结论：听觉系统对频率的感知与声音的客观频率成非线性关系。

1 听觉系统的感知特性 1.3 掩蔽效应当一个强纯音和一个弱纯音的频率接近时，听觉系统就会失去对弱纯音的感知，这种现象称为掩蔽效应。

1 听觉系统的感知特性 1.3 掩蔽效应 • 观察结论： • 低频音较之高频音有更强的掩蔽作用。 • 存在若干个（通常为24个）所谓掩蔽效应带（频率区间），称为临界频带（critical band）。

2 MPEG Audio的心理声学模型 • 由于存在听觉阈值，因此当输入信号的电平地低于听觉阈值时，系统就去掉这些信号，从而减少了音频数据量。 • 由于存在掩蔽效应，因此系统可以设法消除被掩蔽的声音信号（电平），这也降低了数据量。 • 由于听觉系统对2kHz~4KHz的声音比较敏感，因此系统可以提高对这一部分信号的编码强度，而降低其他频段信号的编码强度。

3 MPEG Audio编解码系统 3.1 系统结构 MPEG Audio Codec = Sub-Band Codec + 心理声学模型

3 MPEG Audio编解码系统 3.2 部件分析 • 多相滤波器组作用：将输入信号分成32个频率子带。子带划分方法：线性划分；按临界频带划分

3 MPEG Audio编解码系统 3.2 部件分析 • 编码器

3 MPEG Audio编解码系统 3.2 部件分析 • 心理声学模型

3 MPEG Audio编解码系统 3.2 部件分析 • 心理声学模型如何作用于编码器核心思想：计算所谓信掩比（Signal-to-Mask Ratio, SMR），通过SMR来调节量化深度。掩蔽音 SMR = 掩蔽阈值（最小）例如：降低量化深度被掩蔽音（noise） SMR 掩蔽阈值

3 MPEG Audio编解码系统 3.3 MPEG Audio 的编码分层

3 MPEG Audio编解码系统 3.3 MPEG Audio 的编码分层 • 层1 • - 每帧数据包含384个样本（32 x 12） • - 采用线性子带划分 • - 使用频域掩蔽特性 • - SMR使用全局掩蔽阈值

3 MPEG Audio编解码系统 3.3 MPEG Audio 的编码分层 • 层2 • - 每帧数据包含1152个样本（32 x 12 x 3） • - 采用线性子带划分 • - 使用频域掩蔽和时域掩蔽特性 • - SMR使用全局掩蔽阈值

3 MPEG Audio编解码系统 3.3 MPEG Audio 的编码分层 • 层3（即MP3） • - 每帧数据包含1152个样本（32 x 12 x 3） • - 采用临界频带划分子带 • - 使用频域掩蔽和时域掩蔽特性，还考虑了立体声冗余特性 • - 增加使用Huffman编码进一步压缩数据

Thank you !

多媒体技术

多媒体技术

Presentation Transcript