Kompresja stratna

Kompresja stratna — metody zmniejszania liczby bitów potrzebnych do wyrażenia danej informacji, które nie dają gwarancji, że odtworzona informacja będzie identyczna z oryginałem. Dla niektórych danych algorytm kompresji stratnej może odtworzyć informację w sposób identycznyKompresja stratna jest możliwa ze względu na sposób działania ludzkich zmysłów, tj. wyższą wartość pewnych części danych nad innymi. Algorytmy kompresji stratnej zazwyczaj posługują się modelami psychoakustycznymi, psychowizualnymi itd., aby odrzucić najmniej istotne dane o dźwięku, obrazie, pozostawiając dane o wyższej wartości dla rozpoznawania tej informacji (akustycznej, wizualnej) przez zmysły. Ilość odrzucanych danych jest zazwyczaj określana przez stopień kompresji.Z tego też względu nie istnieją algorytmy kompresji stratnej, które można stosować do dowolnego typu danych. Np. kompresja stratna plików wykonywalnych byłaby praktycznie niemożliwa do zastosowania, gdyż nie jest to informacja odczytywana przez zmysły, a przez maszynę.Zwykle kompresję stratną stosuje się do:obrazków, dźwięków, ruchomych obrazów, np. w filmie.Przy danych audiowizualnych zazwyczaj kompresuje się osobno dźwięk, a osobno obraz.Prostym przykładem kompresji stratnej jest np. zachowanie tylko co drugiego piksela, lub odrzucenie 2 najmniej istotnych bitów. Takie metody jednak nie dają zazwyczaj tak zadowalających rezultatów jak oparte na modelach psychozmysłowych. Kompresja stratna

Kompresja bezstratna (ang. lossless compression) to ogólna nazwa metod kompresji informacji do postaci zawierającej zmniejszoną liczbę bitów, pod warunkiem że metoda ta gwarantuje możliwość odtworzenia informacji z postaci skompresowanej do identycznej postaci pierwotnej. Stosuje się ją do takich samych czynosci co kompresja stratna Kompresja bezstratna

PCM, ADPCM, Ogg Vorbis Formaty kompresji

PCM (ang. Pulse Code Modulation) – to najpopularniejsza metoda reprezentacji sygnału analogowego w systemach cyfrowych. Używana jest w telekomunikacji, w cyfrowej obróbce sygnału (np. w procesorach dźwięku), do przetwarzania obrazu, do zapisu na płytach CD (CD-Audio) i w wielu zastosowaniach przemysłowych.Metoda polega na reprezentacji wartości chwilowej sygnału (próbkowaniu) w określonych (najczęściej równych) odstępach czasu, czyli z określoną częstością, zwaną częstotliwością próbkowania. Wartość chwilowa sygnału jest przedstawiana za pomocą słowa kodowego, którego wartości odpowiadają wybranym przedziałom kwantyzacji sygnału wejściowego. Przypisanie zakresu wartości analogowej jednej wartości cyfrowej, nazywany kwantyzacją sygnału, prowadzi do pewnej niedokładności (błędu kwantyzacji). Im większa częstotliwość próbkowania i im więcej bitów słowa kodowego reprezentuje każdą próbkę, tym dokładność reprezentacji jest większa, a tak zapisany sygnał jest wierniejszy oryginałowi. Często można dobrać tak częstotliwość próbkowania, by częstotliwość Nyquista (połowa częstotliwości próbkowania) była większa od najwyższej częstotliwości spośród składowych harmonicznych sygnału - co pozwala na bezstratną informacyjnie zamianę sygnału ciągłego na dyskretny. Liczba poziomów kwantyzacji jest zazwyczaj potęgą liczby 2 (ponieważ do zapisu próbek używane są słowa binarne) i wyraża się wzorem 2n, gdzie n to liczba bitów przeznaczona na pojedynczą próbkę.Dźwięk w formacie PCM może być zapisywany z różną częstotliwością próbkowania, najczęściej jest to 8 kHz (niektóre standardy telefonii), 44,1 kHz (płyty CD-Audio), oraz różną rozdzielczością, najczęściej 8, 16, 20 lub 24 bitów na próbkę, może reprezentować 1 kanał (dźwięk monofoniczny), 2 kanały (stereofonia dwukanałowa) lub więcej (stereofonia dookólna).Reprezentacja dźwięku próbkowana z częstotliwością 44,1 kHz i rozdzielczością 16 bitów na próbkę (216 = 65536 możliwych wartości amplitudy fali dźwiękowej na próbkę) jest uważana za bardzo wierną swemu oryginałowi, ponieważ pokrywa cały zakres pasma częstotliwości słyszalnych przez człowieka oraz prawie cały zakres rozpiętości dynamicznej słyszalnych dźwięków. PCM

ADPCM z ang. Adaptive Differential Pulse Code Modulation to adaptacyjna różnicowa modulacja kodowo-impulsowa. Jest to metoda kompresji cyfrowego zapisu dźwięku oraz technika kodowania analogowego sygnału mowy na postać cyfrową PCM w celu zmniejszenia ilości danych i transmisji przez kanał o przepływnościach od 16 do 32 kb/s Metoda kodowania ADPCM polega na tym, że zamiast samych próbek dźwięków zapisuje się tylko ich kolejne różnice. Jest to tzw. technika predykcyjna (prognozująca) wykorzystująca fakt, że np. w kolejnych sekwencjach sygnał mowy lub dźwięku z reguły zmienia się nieznacznie, wystarczy więc zakodować jedynie różnicę.Liczba bitów informacji o zmianie jest automatycznie dopasowywana do potrzeb. Dzięki technice ADPCM można na pojedynczej płycie CD-ROM zapisać około 16 godzin muzyki (z akceptowalną utratą jakości dźwięku), w odróżnieniu od 74 minut w przypadku zapisu standardowego.ADPCM jest często używana jako technika do kodowania dźwięku i mowy, jest wykorzystywana w standardzie kompresji dźwięku G.726. ADPCM

Vorbis to stratny kodek dźwięku z rodziny Ogg. Bardzo często używany jest w połączeniu z kontenerem Ogg i nosi wtedy nazwę Ogg Vorbis, często błędnie zapisywaną tylko jako Ogg, czy nawet jako OGG. Ogg Vorbis potrafi obsłużyć do 255 kanałów i ponad 16-bitowy dźwięk w zakresie 6-48 kHz. Specyfikacje tych formatów są własnością publiczną. Biblioteki rozprowadza się na prawach licencji z rodziny BSD, a narzędzia na zasadach GNU GPL. Ogg Vorbis

Aktualnie wykorzystywanych jest kilkanaście formatów plików dźwiękowych, z których każdy ma swoje unikalne zalety i wady. Formaty plików dźwiękowych

Audio Interchange File Format (AIFF). Pliki dźwiękowe tego typu nie są kompresowane, a najczęściej korzystają z nich użytkownicy komputerów Macintosh. Pliki zapisywane w tym formacie mogą być bardzo duże. AIF, .AIFF - popularny niegdyś na Macintoshach, obecnie rozpowszechniony również na pecetach. Pliki AIFF nie są kompresowane, chociaż istnieje format AIFF-C, który umożliwia kompresję nawet w stopniu 6:1. *Wiekszość odtwarzaczy muzycznych wspiera nadal .AIF, .AIFF. Musical Instrument Digital Interface (MIDI). Pliki tego typu zawierają raczej syntezowane niż nagrywane dźwięki. Pliki MIDI są bardzo małe. Jednak ze względu na fakt, iż nie można cofać odtwarzanego dźwięku, pliki MIDI mają ograniczone zastosowanie.

MIDI –pliki tego typu są najprostsza formą przechowywania muzyki w postaci cyfrowej, gdyż w pliku tym są zarejestrowane tylko informacje takie jak: instrument, nuta, czas itd. Pliki te charakteryzują się małą objętością (dają się jeszcze dość skutecznie skompresować) ,ale jakość muzyki zależy od płyty dźwiękowej, to znaczy jakiego systemu ta płyta używa aby odtworzyć dany instrument. Dzieje się tak dlatego, że MIDI nie digitalizuje, nie kompresuje realnych dźwięków, a jest językiem opisującym, jakie dźwięki ma wygenerować syntezator znajdujący się na karcie muzycznej. Dzięki temu 10 kB plik MIDI może odpowiadać nawet 1 minucie odgrywanego dźwięku! Jakość dźwięku jest zależna przede wszystkim od karty dźwiękowej i jej ceny. Niestety nie zapisuje się w tym formacie vocalu. Dlatego też jest to format nadający się przede wszystkim do słuchania muzyki klasycznej.

µ-low ( nazywane także „dźwiękiem podstawowym”), to najstarszy format zapisu dźwięku na Internecie. Jednak jego niska jakość sprawia, iż aktualnie nie jest on szczególnie atrakcyjny. Jego zaletą jest natomiast niewielki rozmiar plików. Motion Picture Experts Group (MPEG) Audio oferuje trzy typy (lub poziomy) plików dźwiękowych i jest bardzo popularne ze względu na szeroką akceptację i obsługę tego formatu zapisu dźwięku i obrazu. Aktualnie najbardziej popularnym formatem plików dźwiękowych jest MP3, oferujący dźwięk o jakości porównywalnej z jakością muzyki z płyt kompaktowych a jednocześnie bardzo mały rozmiar plików.

WAV (lub WAVE) - format plików dźwiękowych stworzony przez Microsoft oraz IBM. Pomimo, że może może zawierać dowolny kodek audio, zazwyczaj stosuje się nieskompresowany PCM, co negatywnie wpływa na wielkość pliku. Pliki WAV stosowane są do zapisu krótkich dźwięków oraz, jeżeli rozmiar pliku nie.ma.znaczenia. Muzykę z płyt CD-Audio można bezstratnie zapisać w tym formacie za pomocą tak zwanych ripperów, jednak tak utworzone pliki mają bardzo duży rozmiar (około 172 kB na sekundę), toteż zwykle zwykle zapisuje się je w formatach ze stratną kompresją. Wave dźwięk zapisywany bez kompresji. Podstawową wadą tego formatu jest jego ogromna objętość (pliki o wysokiej jakości 1 min = 10MB). Z tego powodu pliki tego formatu są nieprzydatne w sieci. Jest to natomiast bardzo dobry format do przetwarzania dźwięków i późniejszej konwersji na inne formaty. Obsługuje go większość edytorów dźwięku i programów konwertujących. Pliki wave rozpoznaje się po rozszerzeniu “.wav”.*.WAV odtwarza praktycznie każdy program multimedialny

MP3 (MPEG-1/2 Audio Layer-3) - to popularny format stratnej kompresji dźwięku opierający się na zmodyfikowanej dyskretnej transformacie cosinusowej i używający modelu psychoakustycznego. Format został stworzony we Fraunhofer Institute. Przy tworzeniu jego pierwszej implementacji wykorzystywany był m.in. utwór Suzanne Vegi Tom's Diner w celu dostosowania kompresji do brzmienia ludzkiego głosu. Dźwięk skompresowany z przepływnością (ang. bitrate) 128 kbps daje zazwyczaj zadowalającą jakość na przeciętnym sprzęcie odsłuchowym w komputerach osobistych (128 kbps przyjmuje się jako odpowiadającą niskiej jakości odtwarzaczom CD), dźwięk skompresowany przy 192 kbps jest dla większości ludzi nieodróżnialny od oryginału. Niektórzy słuchacze w celu uzyskania większej jakości dźwięku stosują jeszcze słabszą kompresję (256 lub nawet 320 kbps). Jakość zależy również w dużym stopniu od używanego do kompresji enkodera. Pierwotnie do kompresji MP3 stosowano Constant Bit Rate (CBR), czyli do każdej ramki używano tej samej ilości bitów. Współcześnie używa się raczej Variable Bit Rate (VBR) charakteryzującego się zmienną przepływnością w wybranym przedziale podczas kodowania. *.MP3 odtwarza praktycznie każdy program multimedialny

Mp3 (MPEG2 Layer-3) Wykorzystuje algorytm stratnej kompresji, dzięki czemu rozmiar pliku MP3 jest dużo mniejszy niż pliku zapisanego bez kompresji. Pliki formatu MP3 rozpoznaje się po rozszerzeniu “.mp3”. Jest to jeden z najbardziej rozpowszechnionych formatów w Internecie. Związane jest to z możliwością zapisu dźwięku w plikach o małej objętości zachowując dodatkowo dosyć dużą jakość dźwięku. Osiąga się to poprzez usuwanie słabszych dźwięków, które i tak byłyby nie słyszalne dla ludzkiego mózgu. Poza tym, z powodu ograniczonego czasu reakcji naszego mózgu, słabsze dźwięki są niesłyszalne na krótko przed i po wystąpieniu silnego sygnału i także one są usuwane. Daje to w efekcie nawet 12-krotne zmniejszenie objętości w stosunku do pliku typu WAV bez zauważalnej straty jakości. Format MPEG Layer 3 można podzielić na dwie kategorie: 1. MPEG-1 Layer 3 (dźwięk próblowany z częstotliwością 32, 44,1 lub 48 kHz) i 2. MPEG-2 Layer 3 (16, 22,05 lub 24 kHz). Dźwięk może być przechowywany w pliku w trzech podformatach (layers), różniących się od siebie jedynie stopniem kompresji. • Layer 1 umożliwia czterokrotne zmniejszenie objętości nieskompresowanego pliku (np. w formacie WAVE)• Layer2 – ośmiokrotne• Layer 3 nawet dwunastokrotne.Kompresja pociąga za sobą oczywiście utratę jakości, ale dźwięk jest wciąż niemal tak samo doskonały, jak na płytach CD.

Mp3Pro to następca MP3. Powstał dzięki firmie Thomson oraz naukowcom z Franhouver. Pliki Mp3Pro różnią się od zwykłych Mp3 praktycznie tylko rozmiarem- zajmują go o połowę mniej. Zapewnia on jakość porównywalną do mp3, przy zdecydowanie mniejszym bitrate (czasem wystarczy nawet 64 kbit/s, by uzyskać jakość odpowiadającą 128 kbit/s "zwykłego" mpeg layer-3). Jakość tego formatu, pomimo zdecydowanie mniejszego "nominalnego" bitrate, jest podobna, a może nawet lepsza od mp3.

MPC (Musepack) - format stratnej kompresji dźwięku, bazujący na algorytmach MPEG Layer-2 (MP2), jednakże znacznie w stosunku do nich rozbudowany. Format został zaprojektowany tak, by dawać dźwięk nierozróżnialny od oryginału przy standardowych ustawieniach (tzw. przezroczystość, ang. transparency), co osiąga przy przepływności (bitrate) niższej niż inne popularne kodeki (jak np. MP3). Algorytm zaprojektowano tak, aby przechowywał jak najwięcej informacji, dlatego najlepiej sprawdza się dla wysokich przepływności (od 140 kbit/s wzwyż), natomiast dla przepływności poniżej 112 kbit/s jakość dźwięku w tym formacie gwałtownie spada. Wzorcowa implementacja Musepack jest szybsza niż większość popularnych kodeków dźwięku.

APE (Monkey's Audio) - Jeden z najpopularniejszych bezstratnych kodeków dźwięku. Pozwala zmniejszyć wielkość plików o 40% do 50%. Pliki zawierające dźwięk w tym formacie mają rozszerzenie. APE Program zawiera w sobie plugin dla programu Winamp ,aby mógł odtwarzać pliki z tym rozszerzeniem. Pliki .APE pozwalają zmienić się na pliki WAV bez utraty jakości.

FLAC (Free Lossless Audio Codec) - format bezstratnej kompresji dźwięku z rodziny kodeków Ogg. Format ten jest rozwijany przez Xiph.Org Foundation i kojarzony z Wolnym Oprogramowaniem. W przeciwieństwie do stratnych kodeków dźwięku takich jak Vorbis, MP3 i AAC, kodek FLAC nie usuwa żadnych danych ze strumienia audio, dzięki czemu po dekompresji otrzymujemy dźwięk identyczny z pierwowzorem. Format FLAC jest obecnie obsługiwany przez większość oprogramowania służącego do edycji/odtwarzania audio (czasami wymagana jest odpowiednia wtyczka).

AAC (Advanced Audio Coding) - algorytm stratnej kompresji danych dźwiękowych, którego specyfikacja została opublikowana w roku 1997. Format AAC zaprojektowany został jako następca MP3, oferujący lepszą jakość dźwięku przy podobnym rozmiarze danych. Uzywany przrz Apple w popularnym iTunes Music Store. Wiekszość odtwarzaczy muzycznych wspiera nadal ten format plików. AAC Format zapewnia około 2-krotnie lepszą kompresję dźwięku, jednak pliki przez niego wygenerowane mogą brzmieć nieco "sztucznie". Ponadto AAC nie jest zbyt rozpowszechnionym formatem (w porównaniu do mp3, vqf, czy ogg).

RealAudio - format kompresji dźwięku stworzony przez firme RealNetworks. Kodek został opracowany głownie z myślą o wykorzystaniu go w strumieniowaniu dźwięku przy łączu internetowym o niskiej przepustowości. Wiele radii internetowych korzysta z RealAudio przy transmitowaniu audycji przez Internet. Rozszerzenie plików RealAudio to .ra, .rm lub .ram. Główną aplikacją do odtwarzania RealAudio jest RealPlayer.

OFR (OptimFROG) - format bezstratnej kompresji dźwięku. OptimFROG zapewnia najlepszą jakość kompresji, lecz ma długi czas dekodowania co powoduje duże zużycie procesora podczas odtwarzania

OGG - strumieni danych, popularyzowany przez fundację Xiph.org, stworzony by wspierać inicjatywy związane z rozwojem wolnego oprogramowania do kodowania i dekodowania multimediów. Często spotykany, zapis dużymi literami “OGG” jest nieprawidłowy. Jest to także nazwa rodziny kodeków, co powoduje częste nieporozumienia: np. film zapisany w kontenerze AVI może zawierać strumień dźwięku Vorbis, a w kontenerze Ogg może znajdować się strumień dźwięku w formacie MP3 i obraz kodowany jako DivX/XviD. Kontener Ogg może zawierać wiele multipleksowanych strumieni dźwięku, obrazu i napisów. Zgodnie ze specyfikacją wszystkie pliki w tym formacie, niezależnie od zawartości, powinny mieć rozszerzenie .ogg, jednak w praktyce często stosuje się je tylko do muzyki i dźwięków, a filmom nadaje się rozszerzenie .ogm. Jest to prawdopodobnie spowodowane tym, że użytkownicy wolą wyspecjalizowane programy do odtwarzania muzyki i filmów, które uruchamiają się właśnie w zależności od rozszerzenia danego pliku. *Popularniejsze programy obsługują ten format

SHN (Shorten) - starszy format bezstratnej kompresji dźwięku. Ma gorsza kompresje od WavPack, FLAC i Monkey's Audio. Aczkolwiek jescze popularny z powodu dużej ilośći dostępnych legalnie nagrań koncertowych zapisanych w tym formacie.

WMA (Windows Media Audio) - Windows Media Audio został stworzony przez firmę Mcrosoft. Użytkownicy zauważyli, że o ile WMA znakomicie radzi sobie z kompresją muzyki, to kompresja nagranej mowy pozostawia wiele do życzenia. Wprawdzie wiele z tych wad wyeliminowano lub chociaż poprawiono w najnowszej wersji kodeka ? Windows Media Audio 8? ale jakościowo nadal ustępuje on MP3. Zgodnie z zapewnieniem producenta funkcja kodowania Windows Media Audio 8 dostarcza dźwięk o jakości jak z płyty CD i rozmiarze dwukrotnie mniejszym niż pliki w formacie MP3, dzięki czemu podwaja ilość miejsca przeznaczonego na przechowywanie muzyki i skraca czas pobierania muzyki cyfrowej o jakości płyt CD.Atutem tego standardu jest strumieniowa obsługa plików i łatwa integracja ze środowiskiem XML. Najczęściej dane zakodowane za pomocą WMA umieszcza się w kontenerze ASF *.WMA odtwarza praktycznie każdy program multimedialny

WV (WavPAck) - format bezstratnej kompresji dźwięku podobny do FLAC. WavPAck ma troche lepsza komresje niż FLAC co sprawia, że staje się coraz popularniejszy.

Twin VQ (Transform-domain Weighted Interleave Vector Quantization) nazywany tez VQF (pliki zapisane w tym formacie mają rozszerzenie *.vqf). W przeciwieństwie do MP3, TWIN VQ został opracowany przez firmę komercyjną - NTT Human Interface Laboratories. Twin VQ jest podobnie jak Mp3 formatem służącym do zapisu cyfrowego audio. Twin VQ posiada w przeciwieństwie do MP3 dwie prędkości kompresowania dźwięku zachowując przy tym jakość CD : • 80 kbit/sec (sekunda dźwięku zajmuje 10 KB) • 96 kbit/sec (sekunda dźwięku zajmuje 12 KB). W porównaniu z formatem MP3 o tej samej częstotliwości próbkowania, VQF daje kompresję lepszą o ok. 35 procent.

Należy również wspomnieć o formacie RMF, czyli Rich Music Format. Jest to zaawansowana technika, pozwalająca uzyskać bardzo bogate brzmienie, przy niewielkiej objętości pliku. Jest to ciągle jednak mało popularna technika ale z którą wiąże się wielkie nadzieje na przyszłość.

Kompresja stratna