1 / 30

Audio Overview

Audio Overview. 指導教授:蔡宗漢 博士 姓名:王怡雯 2003/7/7. Outline. Instruction Psychoacoustics Model Time-frequency analysis MPEG-1 Layers 1& 2 MPEG-1 Layers 3 MPEG-2 AAC Conclusions. 簡介. 我們平常聽到的聲音,是由物體的震動產生聲波,聲波再藉由空氣傳遞到達耳朵,並震動耳膜而形成的。

dezso
Download Presentation

Audio Overview

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Audio Overview 指導教授:蔡宗漢 博士 姓名:王怡雯 2003/7/7

  2. Outline • Instruction • Psychoacoustics Model • Time-frequency analysis • MPEG-1 Layers 1& 2 • MPEG-1 Layers 3 • MPEG-2 AAC • Conclusions

  3. 簡介 • 我們平常聽到的聲音,是由物體的震動產生聲波,聲波再藉由空氣傳遞到達耳朵,並震動耳膜而形成的。 • 樂器發聲的原理也是這樣,不同的樂器會震動出不一樣的聲波波形,相同的樂器也可利用震動的快慢來產生不同的音調。以弦樂器來說,長、厚且鬆弛的弦會產生低頻的音調。

  4. 網路音樂的傳輸 • 在電腦中記錄聲音,最簡單的方式就是記錄整個聲波的波形,換句話說,就是記錄在時間軸上聲波波形的振幅值(樣本值)。 • 這種記錄方式可以將任何聲音完整地記錄在電腦儲存裝置中;播放時,也是隨著時間的遞增將聲波的振幅值播放出來,就可達到原音重現的效果。

  5. 網路音樂的傳輸 • 例如目前市面上最常見的記錄聲音儲存裝置CD(compact disc),其取樣頻率為44.1千赫(KHz),且為雙聲道,每個樣本值儲存空間大小為16個位元;也就是說它每秒記錄了44,100乘以2個16位元大小(1378.125 Kbps;Kbps為kilo-bits persecond的縮寫,代表每秒傳送幾千個位元的資料量)的振幅值。 • 我們都知道CD的音質已經可以帶給我們如同真實世界的聲音感受,但是它需要的儲存空間太大,並不適合在現今有限的網路頻寬下當成網路音樂傳輸的媒體。

  6. 音訊處理技術 • 許多以訊號編碼為主的音訊壓縮方式如MP3、AAC(advanced audio coding;MPEG高級音頻編碼)等紛紛制定出來。 • 以我們最常見的MP3來說,是利用移除人類聽覺系統中聽不到的聲音,來達到高壓縮比、高音質的壓縮。透過MP3的壓縮方式,CD音質的聲音可以壓縮到每秒傳輸量在128千位元上下,壓縮率可達12倍之多。

  7. 音訊編碼技術的發展 • 音訊編碼的實現主要是引進聲響心理學內有關人耳對頻率分辨與響度察覺的非線性感應,即所謂的感知型編碼。 • 其編碼流程如下:首先將音訊信號透過時頻轉換成頻域係數,同時求出人耳所能容忍失真的遮蔽臨界曲線,再據以彈性調整各個頻域係數所需要的位元數。 • 常見的時頻轉換技術包括次頻帶編碼器採用的多相濾波器組,以及轉換編碼器所採用的修正餘弦轉換。而結合兩者優點的混合轉換機制,可以進一步在各個次頻帶提供不同的頻率解析度,已經廣泛地使用於較先進的音訊編碼技術上。

  8. 音訊編碼技術的發展 • 自一九九二年起,國際標準組織(ISO)的動畫專家群組(Moving Pictures Experts Group, MPEG)制定了一系列的影音編碼標準,因此,希望藉由介紹MPEG標準,使大家對音訊編碼技術的演進發展更加了解。 • MPEG-1是第一個國際性寬頻音訊壓縮標準,可以支援三種取樣率,適用於單聲道或雙聲道的音響設備。MPEG-1依照複雜度由低而高又可分為第一層、第二層及第三層,而壓縮比例分別為1/4、1/8與1/12。MPEG-1三個層次的時頻轉換技術均以32個次頻帶的多相濾波器組為基礎。MP3數位音樂壓縮格式,即是採用MPEG-1第三層的技術。

  9. 音訊編碼技術的發展 • 近年來,大眾對於聽覺享受的要求不斷提高,適用於5.1聲道環繞音效系統的MPEG-2也隨之出現。 • 制定的目在與MPEG-1相容的基礎上,實現低取樣率與多聲道擴展,但音質與壓縮效率並不如預期理想。後來為了需要而制定一個可獲得更高品質的多聲道音訊編碼標準,該標準與MPEG-1並不相容,稱為進階音訊編碼標準(MPEG-2 AAC),已經應用於數位影音光碟及歐洲的數位電視廣播。 • MPEG-2 AAC的核心技術,是利用人耳對於高頻信號較不敏感的特性,而且高頻信號本身強度的影響甚於其內容細節,許多內容細節可讓多個聲道共用,因此可以將若干聲道的高頻訊息合併為單一耦合聲道再傳遞。

  10. 音訊編碼技術的發展 • MPEG-4與之前制定的標準並不同,不僅是壓縮資料以提升通訊網路的使用效益,更引進以內容為導向的資料處理技術,目的在實現對未來具有高度互動性的多媒體應用的廣泛支援,因此,必須符合傳輸頻寬的限制並減少通道雜訊所造成的影響。

  11. Psychoacoustics Model • Psychoacoustic principles 1. Absolute threshold of hearing 2. Critical bands / bandwidths 3. Tone and noise masking

  12. Audio in Analysis Filterbank Quantization & Coding Encoding of bitstream bistream out Perceptual Model Perceptual coding • Generic perceptual audio encoding system

  13. Audio out bistream in Decoding of bitstream Inverse Quantization Synthesis Filterbank Perceptual coding • Generic perceptual audio decoding system

  14. Perceptual coding • Definitions (1)Sound Pressure Level(SPL) *Standard metric for intensity *LspL= 20 log(P/P0) (dB) * P0= 20u Pa *150dBspL dynamic range (2)The Bark *One Bark is the bandwidth of one critical bnad

  15. Absolute threshold of hearing • The ear is most sensitive to frequencies between 1 and 5 kHz, where we can actually hear signals below 0 dB.

  16. Critical Band • MPEG/audio將聲音信號分配成接近critical band的subband,然後依據每一個subband的聽覺量化雜訊程度來量化。最有效的壓縮,即是將不需要的聽覺量化雜訊移除。

  17. Tone and noise masking • Three basic types of masking (1)Noise-is-Masking-Tone(NMT) (2)Tone-is-Masking-Noise(TMN) (3)Noise-is-Masking-Noise(NMN)

  18. Noise-is-Masking-Tone(NMT) • Narrowband noise is masking a tone • Typical SMR threshold is around –5 ~ +5dB =>Noise easily masks a tone

  19. Tone-is-Masking-Noise(TMN) • Tone is masking narrowband noise • Typical SMR threshold of 21 ~ 28dB =>Tones must have fairly high intensity to mask noise

  20. Masking in the frequency domain

  21. Masking in the frequency domain • Masking threshold:low-level signals below this threshold will not be audible. • SMR:signal-to-mask ratio • SNR:signal-to-noise ratio • NMR:noise-to-mask ratio • NMR(m)=SMR-SNR(m) (in dB)

  22. Time-frequency analysis • Filter banks 1. Parallel bank of bandpass filters 2. Provides explicit info on signal distribution. • Transforms

  23. Filter bank types • Uniform bandwidth M-channel • Cosine modulated PQMF • Cosine modulated PR M-band • MDCT

  24. Transform coders • Use unitary transforms • Good spectral resolution • Poor temporal resolution

  25. Quantization • Represent outputs of filterbank by a finite number of levels. 1.Uniform quantizer 2.Non-uniform quantizer

  26. Bit Allocation • Allocates the total number of bits available for the quantization. 1.uniform quantizer:simply allocate the bits for subband signals. 2.non-uniform quantizer:quantization noise varies with respect to the input values---quantizer not easy control.

  27. MPEG-1 Layers 1& 2 • Filterbank divides into 32 subbands • Psychoacoustic 512/1024 FFT

  28. MPEG-1 Layers 3 • Filterbank a cascade of two filterbanks • Non-uniform transform

  29. MPEG-2 AAC • Not compatible with MPEG-1

  30. Conclusions • 聲音編碼的目的,是為了進行資料壓縮,以節省傳輸時所需的頻寬與在記憶體中所占的儲存空間,同時需保證解碼端在還原後還能聽到和原來一樣的聲音。

More Related