380 likes | 579 Views
Zvukové kompresory. Jaroslav Miškovský. Přehled. Vnímání zvuku Maskování Komprese dat Ztrátová komprese Formáty: MPEG MP3 OGG WMA AAC. Lidské vnímání zvuku. Frekvenční rozsah Frekvenční rozsah zvuku, který většina lidí vnímá, začíná kolem 20 Hz a dosahuje ke 20 kHz.
E N D
Zvukové kompresory Jaroslav Miškovský
Přehled • Vnímání zvuku • Maskování • Komprese dat • Ztrátová komprese • Formáty: • MPEG • MP3 • OGG • WMA • AAC
Lidské vnímání zvuku • Frekvenční rozsah • Frekvenční rozsah zvuku, který většina lidí vnímá, začíná kolem 20 Hz a dosahuje ke 20 kHz. • Nejvýznamnější rozsah je 2–4 kHz, který je nejdůležitější pro srozumitelnost řeči a na nějž je lidské ucho nejcitlivější. • Nejvyšší informační hodnota řeči je přenášena v pásmu 0,5–2 kHz. • Dynamický rozsah • Dynamický rozsah lidského ucha (rozdíl mezi nejhlasitějším a nejtišším vnímatelným zvukem) je uprostřed slyšitelného frekvenčního pásma asi 120 dB. Na okrajích pásma je mnohem menší.
Lidské vnímání zvuku • Rozlišování frekvence • Schopnost rozlišit frekvence tónů se u každého člověka liší a je frekvenčně závislá. • Uprostřed slyšitelného frekvenčního pásma za ideálních podmínek lze rozlišit změnu frekvence o několik centů. Na okrajích pásma je rozlišovací schopnost výrazně nižší.
Maskování Máme dva druhy maskování: • Frekvenční maskování • Tempolární maskování
Frekvenční maskování • Schopnost odlišit dva frekvenčně blízké tóny je ovlivněna frekvenčním maskováním. • Pokud znějí dva tóny současně, může jeden z nich potlačit slyšitelnost toho druhého. Tato neschopnost slyšet oba současné tóny se nazývá frekvenční maskování. • Maskovací schopnost je závislá na frekvenci maskujícího tónu, frekvenční vzdálenosti a úrovni maskujícího signálu. • Vnímání tónů s blízkými frekvencemi je ovlivněno šířkou kritického pásma. To má na nejnižších kmitočtech velikost kolem 100 Hz, zatímco na nejvyšších kmitočtech dosahuje až 4 kHz. • Využití: např. MP3, Ogg Vorbis nebo ATRAC.
Tempolární (časové) maskování • Pokud po hlasitém tónu následuje stejný tón s menší hlasitostí, je jeho vnímání potlačeno. Potlačen může být i tichý tón předcházející maskovacímu tónu.
Datový tok (Bitrate) – počet kilobitů za sekundu v multimediálním souboru. • CBR (Constant bitrate) • Konstantní datový tok – používá se nejvíce pro audio a video soubory. Znamená, že bitstream obsahující data má stále stejnou velikost. • Soubor je většinou větší než při VBR a u pasáží s velkým počtem hudebních informací nezní tak dobře. • VBR (Variable bitrate) • Proměnný datový tok – hodnota datového toku závisí na podmínkách. U klidných míst kodér bitrate šetří, přidává ho u intenzivnějších partií. • Kvalita je většinou vyšší než u CBR.
Datový tok (Bitrate) • ABR (Average bitrate) • Průměrný datový tok – hodnota datového toku se vypočítá jako suma přenosové rychlosti každého vzorku vydělena počtem vzorků. Skladba má v průměru nastavený jeden bitrate, výkyvy jsou možné.
Komprese dat • Bezeztrátová komprese • Ztrátová komprese
Bezeztrátová komprese • Jedná se o algoritmy, které dovolují přesnou zpětnou rekonstrukci komprimovaných dat. • Používá se všude tam, kde je důležité, aby originální data a data po dekompresi komprimovaného souboru byla totožná. • např. při přenášení počítačových dat, výsledků měření, textu apod.
Bezeztrátové kompresní metody • WAV, Monkey's Audio, RealPlayer • Zip, RAR • GIF, PNG • Huffyuv, H.264/MPEG-4 AVC
WAV(Waveform audio format) • Tento zvukový formát vytvořily firmy IBM a Microsoft. Je to speciální varianta obecnějšího formátu RIFF. • Většinou se používá nekomprimovaný zvuk v pulzně kódové modulaci (PCM). • stejně jako na Audio CD • Velikost WAV souboru je omezena na 4 GB, což odpovídá asi 6.6 hodinám záznamu v CD kvalitě. • Datový tok odpovídá 1411Kb/s při vzorkování 44100 Hz.
Ztrátová komprese • Při kompresi jsou některé informace nenávratně ztraceny a nelze je zpět rekonstruovat. • Používá se tam, kde je možné ztrátu některých informací tolerovat a kde nevýhoda určitého zkreslení je bohatě vyvážena velmi významným zmenšením souboru. • např. při kompresi zvuku nebo obrazu.
Ztrátová komprese - princip • Po úvodním předzpracování se přeskupí a/nebo transformují data tak, aby bylo možno lehce oddělit důležité informace od nedůležitých. • Nedůležité informace se pak potlačí mnohem více než důležité a nakonec se výsledek zkomprimuje některým z bezeztrátových kompresních algoritmů. • Algoritmus ztrátové komprese má tedy dvě podstatné části • transformace původních dat • potlačení různě důležitých dat.
Transformace původních dat • K transformaci původních nebo předzpracovaných dat se obvykle používá některá z ortonormálních nebo téměř ortonormálních transformací. • DCT (diskrétní kosinová transformace) • FFT (rychlá Fourierova transformace) • DWT (diskrétní vlnková transformace)
Potlačení některých dat • V této části kompresního algoritmu je rozhodující kvalitní psychoakustický model, který určuje, jaká data mohou být potlačena nebo dokonce úplně odstraněna. • Při kompresi zvuku se hledají frekvence, které člověk stejně nemůže vnímat. • Problém při kompresi zvuku je o to složitější, že lidský sluch je velmi citlivý i na časové umístění zvuku. I s tím musí dobrý psychoakustický model počítat.
Formáty využívající ztrátovou kompresi • MPEG • MP3 • Ogg Vorbis • WMA • AAC • Dále JPEG, JPEG 2000
MPEG (Motion Picture Experts Group ) • MPEG-1: Kódování pohyblivého obrazu a přidruženého zvuku pro digitální datové nosiče s rychlostí přenosu 0,9 až 1,5 Mbitu/s. Standard pro kódování zvuku zahrnuje také oblíbený zvukový kompresní formát Layer 3 (MP3). • MPEG-2: Všeobecné kódování pohyblivého obrazu a přidruženého zvuku. Zahrnuje přenosové, obrazové a zvukové kódovací standardy pro vzduchem šířené televizní vysílaní ATSC a DVB, digitální satelitní TV přenos, digitální kabelový TV signál a (s určitými změnami) disky DVD Video. Přenosová rychlost se pohybuje od 1,5 Mbitu/s až do 15 Mbitů/s (pro TV signál se používá rychlost 6 Mbitů/s).
MPEG (Motion Picture Experts Group ) • MPEG-3: Původně určený pro kódování standardu HDTV, později byl jeho vývoj pozastaven a standard MPEG-3 byl sloučen se standardem MPEG-2. • MPEG-4: Kódování audiovizuálního obsahu s velmi nízkým bitratem. Rozšiřuje formát MPEG-1 o podporu audio/video „objektů“, 3D obsahu, kódování s nízkou rychlostí přenosu a Digitální správu práv (angl. Digital Rights Management (DRM)).
Komprese MPEG • Kodeky MPEG využívají tzv. ztrátovou kompresi pomocí transformačních kodeků. • U ztrátových transformačních kodeků se vzorky obrazu nebo zvuku rozdělí na drobné segmenty, transformují se na frekvenční prostor a poté kvantizují (quantized) a dále kódují. • V rámci standardu MPEG je popsán jen formát bitového proudu a dekodér.
MP3(MPEG-1 Layer 3) • O vývoj formátu MP3 se zasloužil německý vědec Karlheinz Brandenburg, ředitel pobočky Frauenhoferova ústavu pro mediální komunikaci v Ilmenau, a jeho vědecký tým. • je to formát ztrátové komprese zvukových souborů, založený na kompresním algoritmu MPEG. • Při zachování vysoké kvality umožňuje zmenšit velikost hudebních souborů v CD kvalitě přibližně na desetinu.
Komprese zvuku MP3 • MP3 se snaží odstranit redundanci zvukového signálu na základě psychoakustického modelu. • Komprese je založena na využití následujících nedokonalostí lidského sluchu: • Různá citlivost závislá na frekvenci • Frekvenční maskování • Tempolární (časové) maskování • Míru komprimace udává takzvaný bitrate. • Nejčastěji se setkáte s bitrate 128 Kb/s, občas 192 Kb/s což odpovídá téměř CD kvalitě.
MP3 – slabiny • Při komprimaci mluveného slova jsou výsledky výrazně horší. • Popsané maskování a potlačování tónů způsobuje, že umluveného slova může být ve slově potlačena počáteční nebo koncová slabika. Mohou být také zkracovány pauzy mezi jednotlivými slovy. • Výsledná kvalita ovšem závisí na zvoleném datovém toku.
Ogg Vorbis • Datový formát Ogg propagovaný nadací Xiph.org • Dnes je základem ztrátový zvukový kodek Ogg Vorbis (16 - 256 Kb/s na kanál). • Kodek je koncipován tak, aby byl maximálně flexibilní. • Umožňuje použití velkého rozsahu vzorkovacích frekvencí 8kHz – 192kHz. • Použití až 255 kanálů • Používá standardně VBR, lze i CBR, ABR • „bitrate peeling„ • umožňuje snížit velikost přenosové rychlosti bez nutnosti znovu kódovat soubor => nedochází ke zhoršení kvality vlivem kódování
Ogg Vorbis - kvalita • U Ogg Vorbis kvalitu určuje, jak moc se komprimovaný soubor liší od originálu. • Rozsah nastavení kvality je v rozmezí -1 až 10, kde deset je nejlepší kvalita. • Standardní nastavení kvality je 3, které většinou odpovídá průměrnému bitrate 112kbps. Srovnáním s MP3 na 128kbps je zvuková kvalita Ogg lepší a velikost souboru je zhruba o 10% menší. • Nastavením kvality 2 se zvuková kvalita vyrovnává, ale soubor je už o 25% menší.
Ogg Vorbis - použití • Výrobci her pro kompresi zvukových (někdy i obrazových) dat obsažených ve hrách. • Použití na Internetu • Např. ČRo • Jeho předností je i otevřená licence.
WMA (Window Media Audio) • Formát vyvinutý Microsoftem jako součást Windows Media byl původně určen jako náhrada za MP3. • Aktuální verze je 9.2, která kromě původního ztrátového kodeku přidává i zvláštní kodeky pro bezztrátovou a multikanálovou kompresi. • WMA 9 Pro • Zachytává zvuk v plném rozlišení (vzorkování v kvalitě 24 bitů/96 kHz) ve formátu stereo nebo 5.1 (či dokonce 7.1) Surround • Přenosové rychlosti 128 až 768 kb/s. • Místo souborů MP3 ve formátu stereo při přenosové rychlosti 128 kb/s mohou uživatelé pracovat se soubory WMA 5.1 s vyšší věrností při stejné přenosové rychlosti.
WMA - kvalita • Od verze 9 je kvalita zvuku WMA velmi slušná, dosahuje téměř ke špičce (Vorbis, Musepack). Známým problémem je příliš časné ořezávání vyšších frekvencí při nižších bitrate. • Zato WMA neobsahuje ani při nižších bitrate tolik artefaktů jako konkurence. • Zvukově mírně překonává MP3, zvláště při nižších datových tocích.
WMA – hardwarová a softwarová podpora • Oficiálně existuje pouze jeden enkóder a ten je integrovaný ve Windows Media Player. Je velmi rychlý (dokonce několikrát rychlejší než třeba enkodér Vorbisu), ale obsahuje minimum nastavení. • Není možné nastavit CBR ani ABR, pouze VBR a to pouze v několika pevných profilech. • K fomátu WMA neexistuje otevřená specifikace, existuje tedy pouze jediný použitelný enkodér, který je navíc těsně spjat s platformou Windows. • Ohledně hardware je na tom WMA velmi dobře. Nejspíš díky obchodním „tlakům“ je WMA velmi rozšířený formát především u přehrávačů hudby a DVD přehrávačů.
AAC(Advanced Audio Coding) • AAC je součástí audio standardu MPEG-2 a MPEG-4. • Hlavním nositelem licence je firma Dolby Labs. • Formát AAC není úplně jednotný a obsahuje v sobě několik profilů, vylepšení apod. • technologie jako LTP (Long Term Prediction) nebo Postprocessing • Existuje mnoho enkoderů, které se razantně liší kvalitou. • AAC je jeden z nejpokročilejších kodeků a má velmi dobré vyhlídky do budoucna.
AAC - vlastnosti • Vzorkovací frekvence od 8 kHz do 96 kHz • 48 audio kanálů • Signál je zpracovaný upravenou diskrétní kosinovou transformací (MDCT) • Komprimované audio v 96 Kb/s obecně překoná kvalitu MP3 komprimovaného v 128 Kb/s.
AAC - podpora • Softwarová podpora není zrovna nejlepší, většina přehrávačů potřebuje externí plugin (pokud nějaký existuje). • V oblasti hardware se ujal především v přehrávačích firmy Apple iPod. Jeho podpora se také nachází v novém firmware (2.0) PSP (Play Station Portable).
Ukázka • MP3 s různými datovými toky • 48Kb/s; 64Kb/s; 128Kb/s; 192Kb/s a nakonec nekomprimovaný soubor • MP3 s různou vzorkovací frekvencí • 16kHz; 24kHz; 44,1kHz; 48kHz
Zdroje • www.wikipedia.org • http://www.sweb.cz/nullsoftwinamp/winamp/test.htm • http://home.zcu.cz/~mtoman/zvuk.htm • Základy experimentální psychoakustiky: Alois Melka
Konec prezentace Děkuji za pozornost