1 / 38

Zvukové kompresory

Zvukové kompresory. Jaroslav Miškovský. Přehled. Vnímání zvuku Maskování Komprese dat Ztrátová komprese Formáty: MPEG MP3 OGG WMA AAC. Lidské vnímání zvuku. Frekvenční rozsah Frekvenční rozsah zvuku, který většina lidí vnímá, začíná kolem 20 Hz a dosahuje ke 20 kHz.

corin
Download Presentation

Zvukové kompresory

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zvukové kompresory Jaroslav Miškovský

  2. Přehled • Vnímání zvuku • Maskování • Komprese dat • Ztrátová komprese • Formáty: • MPEG • MP3 • OGG • WMA • AAC

  3. Lidské vnímání zvuku • Frekvenční rozsah • Frekvenční rozsah zvuku, který většina lidí vnímá, začíná kolem 20 Hz a dosahuje ke 20 kHz. • Nejvýznamnější rozsah je 2–4 kHz, který je nejdůležitější pro srozumitelnost řeči a na nějž je lidské ucho nejcitlivější. • Nejvyšší informační hodnota řeči je přenášena v pásmu 0,5–2 kHz. • Dynamický rozsah • Dynamický rozsah lidského ucha (rozdíl mezi nejhlasitějším a nejtišším vnímatelným zvukem) je uprostřed slyšitelného frekvenčního pásma asi 120 dB. Na okrajích pásma je mnohem menší.

  4. Lidské vnímání zvuku • Rozlišování frekvence • Schopnost rozlišit frekvence tónů se u každého člověka liší a je frekvenčně závislá. • Uprostřed slyšitelného frekvenčního pásma za ideálních podmínek lze rozlišit změnu frekvence o několik centů. Na okrajích pásma je rozlišovací schopnost výrazně nižší.

  5. Citlivost lidského sluchu na frekvence

  6. Maskování Máme dva druhy maskování: • Frekvenční maskování • Tempolární maskování

  7. Frekvenční maskování • Schopnost odlišit dva frekvenčně blízké tóny je ovlivněna frekvenčním maskováním. • Pokud znějí dva tóny současně, může jeden z nich potlačit slyšitelnost toho druhého. Tato neschopnost slyšet oba současné tóny se nazývá frekvenční maskování. • Maskovací schopnost je závislá na frekvenci maskujícího tónu, frekvenční vzdálenosti a úrovni maskujícího signálu. • Vnímání tónů s blízkými frekvencemi je ovlivněno šířkou kritického pásma. To má na nejnižších kmitočtech velikost kolem 100 Hz, zatímco na nejvyšších kmitočtech dosahuje až 4 kHz. • Využití: např. MP3, Ogg Vorbis nebo ATRAC.

  8. Frekvenční maskování

  9. Tempolární (časové) maskování • Pokud po hlasitém tónu následuje stejný tón s menší hlasitostí, je jeho vnímání potlačeno. Potlačen může být i tichý tón předcházející maskovacímu tónu.

  10. Datový tok (Bitrate) – počet kilobitů za sekundu v multimediálním souboru. • CBR (Constant bitrate) • Konstantní datový tok – používá se nejvíce pro audio a video soubory. Znamená, že bitstream obsahující data má stále stejnou velikost. • Soubor je většinou větší než při VBR a u pasáží s velkým počtem hudebních informací nezní tak dobře. • VBR (Variable bitrate) • Proměnný datový tok – hodnota datového toku závisí na podmínkách. U klidných míst kodér bitrate šetří, přidává ho u intenzivnějších partií. • Kvalita je většinou vyšší než u CBR.

  11. Datový tok (Bitrate) • ABR (Average bitrate) • Průměrný datový tok – hodnota datového toku se vypočítá jako suma přenosové rychlosti každého vzorku vydělena počtem vzorků. Skladba má v průměru nastavený jeden bitrate, výkyvy jsou možné.

  12. Komprese dat • Bezeztrátová komprese • Ztrátová komprese

  13. Bezeztrátová komprese • Jedná se o algoritmy, které dovolují přesnou zpětnou rekonstrukci komprimovaných dat. • Používá se všude tam, kde je důležité, aby originální data a data po dekompresi komprimovaného souboru byla totožná. • např. při přenášení počítačových dat, výsledků měření, textu apod.

  14. Bezeztrátové kompresní metody • WAV, Monkey's Audio, RealPlayer • Zip, RAR • GIF, PNG • Huffyuv, H.264/MPEG-4 AVC

  15. WAV(Waveform audio format) • Tento zvukový formát vytvořily firmy IBM a Microsoft. Je to speciální varianta obecnějšího formátu RIFF. • Většinou se používá nekomprimovaný zvuk v pulzně kódové modulaci (PCM). • stejně jako na Audio CD • Velikost WAV souboru je omezena na 4 GB, což odpovídá asi 6.6 hodinám záznamu v CD kvalitě. • Datový tok odpovídá 1411Kb/s při vzorkování 44100 Hz.

  16. Ztrátová komprese • Při kompresi jsou některé informace nenávratně ztraceny a nelze je zpět rekonstruovat. • Používá se tam, kde je možné ztrátu některých informací tolerovat a kde nevýhoda určitého zkreslení je bohatě vyvážena velmi významným zmenšením souboru. • např. při kompresi zvuku nebo obrazu.

  17. Ztrátová komprese - princip • Po úvodním předzpracování se přeskupí a/nebo transformují data tak, aby bylo možno lehce oddělit důležité informace od nedůležitých. • Nedůležité informace se pak potlačí mnohem více než důležité a nakonec se výsledek zkomprimuje některým z bezeztrátových kompresních algoritmů. • Algoritmus ztrátové komprese má tedy dvě podstatné části • transformace původních dat • potlačení různě důležitých dat.

  18. Transformace původních dat • K transformaci původních nebo předzpracovaných dat se obvykle používá některá z ortonormálních nebo téměř ortonormálních transformací. • DCT (diskrétní kosinová transformace) • FFT (rychlá Fourierova transformace) • DWT (diskrétní vlnková transformace)

  19. Potlačení některých dat • V této části kompresního algoritmu je rozhodující kvalitní psychoakustický model, který určuje, jaká data mohou být potlačena nebo dokonce úplně odstraněna. • Při kompresi zvuku se hledají frekvence, které člověk stejně nemůže vnímat. • Problém při kompresi zvuku je o to složitější, že lidský sluch je velmi citlivý i na časové umístění zvuku. I s tím musí dobrý psychoakustický model počítat.

  20. Formáty využívající ztrátovou kompresi • MPEG • MP3 • Ogg Vorbis • WMA • AAC • Dále JPEG, JPEG 2000

  21. MPEG (Motion Picture Experts Group ) • MPEG-1: Kódování pohyblivého obrazu a přidruženého zvuku pro digitální datové nosiče s rychlostí přenosu 0,9 až 1,5 Mbitu/s. Standard pro kódování zvuku zahrnuje také oblíbený zvukový kompresní formát Layer 3 (MP3). • MPEG-2: Všeobecné kódování pohyblivého obrazu a přidruženého zvuku. Zahrnuje přenosové, obrazové a zvukové kódovací standardy pro vzduchem šířené televizní vysílaní ATSC a DVB, digitální satelitní TV přenos, digitální kabelový TV signál a (s určitými změnami) disky DVD Video. Přenosová rychlost se pohybuje od 1,5 Mbitu/s až do 15 Mbitů/s (pro TV signál se používá rychlost 6 Mbitů/s).

  22. MPEG (Motion Picture Experts Group ) • MPEG-3: Původně určený pro kódování standardu HDTV, později byl jeho vývoj pozastaven a standard MPEG-3 byl sloučen se standardem MPEG-2. • MPEG-4: Kódování audiovizuálního obsahu s velmi nízkým bitratem. Rozšiřuje formát MPEG-1 o podporu audio/video „objektů“, 3D obsahu, kódování s nízkou rychlostí přenosu a Digitální správu práv (angl. Digital Rights Management (DRM)).

  23. Komprese MPEG • Kodeky MPEG využívají tzv. ztrátovou kompresi pomocí transformačních kodeků. • U ztrátových transformačních kodeků se vzorky obrazu nebo zvuku rozdělí na drobné segmenty, transformují se na frekvenční prostor a poté kvantizují (quantized) a dále kódují. • V rámci standardu MPEG je popsán jen formát bitového proudu a dekodér.

  24. MP3(MPEG-1 Layer 3) • O vývoj formátu MP3 se zasloužil německý vědec Karlheinz Brandenburg, ředitel pobočky Frauenhoferova ústavu pro mediální komunikaci v Ilmenau, a jeho vědecký tým. • je to formát ztrátové komprese zvukových souborů, založený na kompresním algoritmu MPEG. • Při zachování vysoké kvality umožňuje zmenšit velikost hudebních souborů v CD kvalitě přibližně na desetinu.

  25. Komprese zvuku MP3 • MP3 se snaží odstranit redundanci zvukového signálu na základě psychoakustického modelu. • Komprese je založena na využití následujících nedokonalostí lidského sluchu: • Různá citlivost závislá na frekvenci • Frekvenční maskování • Tempolární (časové) maskování • Míru komprimace udává takzvaný bitrate. • Nejčastěji se setkáte s bitrate 128 Kb/s, občas 192 Kb/s což odpovídá téměř CD kvalitě.

  26. MP3 – slabiny • Při komprimaci mluveného slova jsou výsledky výrazně horší. • Popsané maskování a potlačování tónů způsobuje, že umluveného slova může být ve slově potlačena počáteční nebo koncová slabika. Mohou být také zkracovány pauzy mezi jednotlivými slovy. • Výsledná kvalita ovšem závisí na zvoleném datovém toku.

  27. Ogg Vorbis • Datový formát Ogg propagovaný nadací Xiph.org • Dnes je základem ztrátový zvukový kodek Ogg Vorbis (16 - 256 Kb/s na kanál). • Kodek je koncipován tak, aby byl maximálně flexibilní. • Umožňuje použití velkého rozsahu vzorkovacích frekvencí 8kHz – 192kHz. • Použití až 255 kanálů • Používá standardně VBR, lze i CBR, ABR • „bitrate peeling„ • umožňuje snížit velikost přenosové rychlosti bez nutnosti znovu kódovat soubor => nedochází ke zhoršení kvality vlivem kódování

  28. Ogg Vorbis - kvalita • U Ogg Vorbis kvalitu určuje, jak moc se komprimovaný soubor liší od originálu. • Rozsah nastavení kvality je v rozmezí -1 až 10, kde deset je nejlepší kvalita. • Standardní nastavení kvality je 3, které většinou odpovídá průměrnému bitrate 112kbps. Srovnáním s MP3 na 128kbps je zvuková kvalita Ogg lepší a velikost souboru je zhruba o 10% menší. • Nastavením kvality 2 se zvuková kvalita vyrovnává, ale soubor je už o 25% menší.

  29. Ogg Vorbis - použití • Výrobci her pro kompresi zvukových (někdy i obrazových) dat obsažených ve hrách. • Použití na Internetu • Např. ČRo • Jeho předností je i otevřená licence.

  30. WMA (Window Media Audio) • Formát vyvinutý Microsoftem jako součást Windows Media byl původně určen jako náhrada za MP3. • Aktuální verze je 9.2, která kromě původního ztrátového kodeku přidává i zvláštní kodeky pro bezztrátovou a multikanálovou kompresi. • WMA 9 Pro • Zachytává zvuk v plném rozlišení (vzorkování v kvalitě 24 bitů/96 kHz) ve formátu stereo nebo 5.1 (či dokonce 7.1) Surround • Přenosové rychlosti 128 až 768 kb/s. • Místo souborů MP3 ve formátu stereo při přenosové rychlosti 128 kb/s mohou uživatelé pracovat se soubory WMA 5.1 s vyšší věrností při stejné přenosové rychlosti.

  31. WMA - kvalita • Od verze 9 je kvalita zvuku WMA velmi slušná, dosahuje téměř ke špičce (Vorbis, Musepack). Známým problémem je příliš časné ořezávání vyšších frekvencí při nižších bitrate. • Zato WMA neobsahuje ani při nižších bitrate tolik artefaktů jako konkurence. • Zvukově mírně překonává MP3, zvláště při nižších datových tocích.

  32. WMA – hardwarová a softwarová podpora • Oficiálně existuje pouze jeden enkóder a ten je integrovaný ve Windows Media Player. Je velmi rychlý (dokonce několikrát rychlejší než třeba enkodér Vorbisu), ale obsahuje minimum nastavení. • Není možné nastavit CBR ani ABR, pouze VBR a to pouze v několika pevných profilech. • K fomátu WMA neexistuje otevřená specifikace, existuje tedy pouze jediný použitelný enkodér, který je navíc těsně spjat s platformou Windows. • Ohledně hardware je na tom WMA velmi dobře. Nejspíš díky obchodním „tlakům“ je WMA velmi rozšířený formát především u přehrávačů hudby a DVD přehrávačů.

  33. AAC(Advanced Audio Coding) • AAC je součástí audio standardu MPEG-2 a MPEG-4. • Hlavním nositelem licence je firma Dolby Labs. • Formát AAC není úplně jednotný a obsahuje v sobě několik profilů, vylepšení apod. • technologie jako LTP (Long Term Prediction) nebo Postprocessing • Existuje mnoho enkoderů, které se razantně liší kvalitou. • AAC je jeden z nejpokročilejších kodeků a má velmi dobré vyhlídky do budoucna.

  34. AAC - vlastnosti • Vzorkovací frekvence od 8 kHz do 96 kHz • 48 audio kanálů • Signál je zpracovaný upravenou diskrétní kosinovou transformací (MDCT) • Komprimované audio v 96 Kb/s obecně překoná kvalitu MP3 komprimovaného v 128 Kb/s.

  35. AAC - podpora • Softwarová podpora není zrovna nejlepší, většina přehrávačů potřebuje externí plugin (pokud nějaký existuje). • V oblasti hardware se ujal především v přehrávačích firmy Apple iPod. Jeho podpora se také nachází v novém firmware (2.0) PSP (Play Station Portable).

  36. Ukázka • MP3 s různými datovými toky • 48Kb/s; 64Kb/s; 128Kb/s; 192Kb/s a nakonec nekomprimovaný soubor • MP3 s různou vzorkovací frekvencí • 16kHz; 24kHz; 44,1kHz; 48kHz

  37. Zdroje • www.wikipedia.org • http://www.sweb.cz/nullsoftwinamp/winamp/test.htm • http://home.zcu.cz/~mtoman/zvuk.htm • Základy experimentální psychoakustiky: Alois Melka

  38. Konec prezentace Děkuji za pozornost

More Related