190 likes | 556 Views
Формат аудиосжатия MP3. Этот самый популярный на сегодняшний день цифровой формат аудиосжатия с потерями, был разработан несколько лет назад небольшой немецкой фирмой Fraunhofer IIS
E N D
Формат аудиосжатия MP3 • Этот самый популярный на сегодняшний день цифровой формат аудиосжатия с потерями, был разработан несколько лет назад небольшой немецкой фирмой Fraunhofer IIS • Данный формат использует довольно сложный алгоритм кодирования. Помимо математических алгоритмов сжатия, в этом формате присутствует так же алгоритм удаления звуковой информации, основанный на психолого-физиологических особенностях организма человека
MP3 является потоковым форматом. Это означает, что звуковая информация при кодировании разбивается на равные по продолжительности участки, которые называются фреймами • Все фреймы взаимно независимы. Каждый из этих фреймов кодируется отдельно со своими параметрами и имеет заголовок, в котором эти параметры описаны • При воспроизведении последовательность декодированных фреймов порождает непрерывное звучание записанного звука
Какие преимущества дает данный подход? • Ввозможность перемотки, так как возможен легкий переход к произвольному фрейму, и воспроизведение звука именно с этого места • Эта структурная особенность и делает MP3 по настоящему сетевым форматом. Загрузив первые несколько фреймов в оперативную память или дисковый кэш, проигрыватель начинает их воспроизводить, при этом одновременно подгружая новые фреймы, чем достигается непрерывность воспроизведения • И наконец, если вы не смогли целиком скачать MP3 файл из сети Internet, музыку все равно можно будет слушать, просто проигрыватель дойдет до того места, на котором оборвалась связь и остановится.
При высоком качестве MP3 (bitrate ~ 320 кbs) для кодирования фреймов применяются только математические алгоритмы сжатия • Качество при этом совершенно не страдает, но и размер уменьшается всего в четыре раза, то есть коэффициент сжатия такой, какой бы дал обычный архиватор. Поэтому файлы формата МР3 практически не ужимаются обычными архиваторами • При уменьшении полосы пропускания (bitrate) до 256 kbs и ниже, в дело вступают алгоритмы удаления "ненужных" звуков, которые основаны на особенностях восприятия звука человеческим ухом, так называемая "психоакустическая модель" • После дополнительного квантования формируется итоговый поток, который затем и сжимается по алгоритму Хаффмана
По каким же критериям оценивается "нужность" и "ненужность" звуков? • Выбрасывает звуки, которые считаются выходящими за порог слышимости человека. За значение порога принимается величина равная 16kHz. Однако, люди весьма разнообразны по своим физиологическим особенностям. Удаление частот выше 16kHz абсолютно неприемлемо для высоких битрейтов претендующих на CD качество, но вполне уместно для низких битрейтов, где качество приносится в жертву размеру • Другим критерием является неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, причем этот уровень различен для разных частотных диапазонов. При использовании психоакустической модели кодирования MP3 автоматически выбрасывает маломощные, неслышимые частоты. К сожалению, люди не одинаковы и те, кто в состоянии различить именно эти частоты, часто жалуются на потерю качества звучания при кодировании, тогда как среднестатистическое большинство этого не замечает
Самой главной особенностью психоакустической модели кодирования MP3 является эффект маскирования. Благодаря этому эффекту удается так сильно сжимать исходные аудиоданные • Суть этого эффекта в том, что слабый сигнал одного диапазона частот зачастую маскируется более мощным сигналом соседнего диапазона или мощным сигналом предыдущего фрейма. Этот сильный сигнал вызывает временное понижение чувствительности уха к сигналу текущего фрейма. • Для каждого звукового диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если маскирующий сигнал превышает мощность сигнала текущего диапазона, то этот диапазон сигнала не кодируется, что позволяет удалить часть данных из этого фрейма. Для оставшихся данных каждого диапазона определяется, сколькими битами на фрейм можно пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта.
Все эти ухищрения суммарно называются адаптивным кодированием. Используя тот факт, что подавляющее большинство людей не обладают идеальным слухом, технология адаптивного кодирования позволяет существенно уменьшить размер кодируемого файла выбросив наименее значимые с точки зрения слухового восприятия детали звучания • Степень сжатия полностью во власти пользователя. Ширина потока (bitrate) способна изменяться от наибольшего значения в 320kbs, до 64 kbs и ниже, соответственно варьируется размер и качество • Профессионалы считают, что битрейт 256kbs в большинстве случаев сохраняет качество звучания, которое практически не отличается от исходного, а битрейт 192kbs довольно ощутимо отличается от оригинала
Если вы хотите точного соответствия сжатого файла оригиналу, пользуйтесь максимальный для кодирования CD Audio битрейтом - 320kbs. Коэффициент сжатия 4:1, для битрейта 256 kbs – 6:1 • Но самый популярный на текущий момент все же битрейт 128 kbs. Причина такой популярности – в относительно небольшом размере (сжатие 12:1). • По размеру файла MP3 легко определить продолжительность звучания • У битрейта 128 kbs 1 минута звучания занимает примерно 1 мегабайт. Это качество средней аудиокассеты
Формат WAVEPCM WAVE (8/16 бит, моно/стерео) • WAVE файлы являются подмножеством файлов RIFF формата (Resource Interchange File Format), разработанного для хранения ресурсов мультимедиа. Об этом формате надо знать совсем немного. Основной элемент RIFF файла - чанк (chunk), имеющий структуру: typedef struct { dword ckID; // Идентификатор чанка, служит для опознания чанка dword ckSize; // Размер чанка (без ckID & cdSize) в байтах byte ckData[ckSize]; // Данные } CK;
Основные типы чанков имеют идентификаторы "RIFF" и "LIST" и могут состоять из вложенных чанков (субчанков) • Мы рассмотрим наиболее простой случай WAVE файла, состоящего из одного лишь RIFF-чанка, содержащего WAVE-форму (WAVE-form)
WAVE-форма наиболее простой категории - PCM имеет следующий вид: <WAVE-форма> = 'WAVE' + <fmt-чанк> + <data-чанк> , где • 'WAVE‘ - просто сигнатура WAVE-формы • <fmt-чанк>- чанк с информацией о звуковом сигнале • <fmt-чанк> = 'fmt ' + <ckSize> + <WaveFormat> + <fmt-specific>, где • 'fmt '- сигнатура fmt-чанка • <ckSize>- его размер • <WaveFormat>- структура WaveFormat, описанная ниже • <fmt-specific>- структура с дополнительной информацией о формате, имеет переменную длину и зависит от wFormatCategory
<data-чанк>- чанк с собственно сигналом • <data-чанк> = 'data' + <ckSize> + <собственно сигнал> , где • 'data'- сигнатура data-чанка • <ckSize>- его размер • <собственно сигнал>- последовательность байт, описывающая сигнал
Структура WaveFormat имеет вид: typedef struct { word wFormatTag; // Категория формата word nChannels; // Число каналов dword nSamplesPerSec; // Частота дискретизации dword nAvgBytesPerSec; // Байт в секунду word nBlockAlign; // Выравнивание данных в data-чанке } WaveFormat;
<fmt-specific> - Для категории PCM эта структура имеет одно значащее поле int nBitsPerSample, которое дает нам разрядность дискретизации • Если, например, nBitsPerSample= 12, то сэмпл хранится в старших 12 битах слова, а младшие 4 – нули • Следом идет поле intcbSize, используемое не-PCM форматом (так, формат ADPCM, например, хранит здесь некий коэффициент, необходимый для кодирования/декодирования сигнала). Для PCM-формата это поле может отсутствовать.
Формат данных PCM • Здесь описана схема размещения данных в data-чанкеwave файла • В моно wave файле сэмплы расположены последовательно один за другим: sample[0],sample[1],sample[2]... • В стерео wave файле сэмплы идут попарно, для левого и правого каналов: left[0],right[0],left[1],right[1],left[2],right[2]...
Примеры расположения данных для различных PCM фйлов: Channel0 - байт для левого канала Channel1 - байт для правого канала • 8 бит моно: -Sample1--Sample2--Sample3--Sample4- Channel0 Channel0 Channel0 Channel0 • 8 бит стерео: ------Sample1-----------Sample2----- hannel0 Channel1 Channel0 Channel1
16 бит моно: ------Sample1-----------Sample2----- Channel0 Channel0 Channel0 Channel0 (lobyte) (hibyte) (lobyte) (hibyte) • 16 бит стерео: -------------Sample1--------------- Channel0 Channel0 Channel1 Channel1 (lobyte) (hibyte) (lobyte) (hibyte))