590 likes | 755 Views
音訊媒體簡介. 聲音的基本原理. 聲音產生的原理 當介質(如空氣、水)中產生了震動,此震動對介質造成壓力,而此壓力會以 波 的形式藉由介質向外擴散,當這些波傳到人的耳朵且頻率範圍在人耳可感應的範圍內 ( 20Hz~20kHz ) ,耳膜會因感應而聽見聲音 真空中聽不見聲音 震動愈強 ,人耳「聽見」的 聲音就會愈大 ;反之,則聲音就會相對的微弱. 聲波及頻率. 聲波 從聲源向四周立體擴散的一組 疏密波 ,空氣分子並不是從聲源一直跑到您的耳朵,而是在它本來的位置振動,從而引起與它相鄰的空氣分子隨之振動,聲音就是這樣從聲源很快地向外傳播的
E N D
聲音的基本原理 • 聲音產生的原理當介質(如空氣、水)中產生了震動,此震動對介質造成壓力,而此壓力會以波的形式藉由介質向外擴散,當這些波傳到人的耳朵且頻率範圍在人耳可感應的範圍內(20Hz~20kHz),耳膜會因感應而聽見聲音 • 真空中聽不見聲音 • 震動愈強,人耳「聽見」的聲音就會愈大;反之,則聲音就會相對的微弱
聲波及頻率 • 聲波 • 從聲源向四周立體擴散的一組疏密波,空氣分子並不是從聲源一直跑到您的耳朵,而是在它本來的位置振動,從而引起與它相鄰的空氣分子隨之振動,聲音就是這樣從聲源很快地向外傳播的 • 聲音在空氣中的傳播速度是331米/秒
聲音的頻率 • 聲音的頻率 • 聲波每秒的振動次數稱為頻率 • 頻率在20hz~20khz之間稱為聲波 • 頻率大於20khz稱為超聲波 • 頻率小於20hz稱為次聲波 • 超聲波和次聲波人耳是聽不到的,地震波和海嘯都是次聲波。有些動物的耳朵比人類要靈敏得多,比如蝙蝠就能“聽到”超聲波 • 人的語音頻率範圍主要在200 hz到4000 hz之間 • 在語音範圍中 • 通常把1000 hz以上的區域稱為高頻區 • 500 hz -1000 hz的區域稱為中頻區 • 低於500 hz的區域稱為低頻區
聲音的強度 • 聲音是空氣分子的振動,振動的空氣分子產生額外的壓力,這種額外的壓力我們就稱之為聲壓 • 物理學家利用 聲壓級(sound pressure level)來描述聲音的大小 • 小的聲壓 p0=2х10-5帕作為參考聲壓 • 要測量的聲壓p與參考聲壓p0的比值取常用對數後乘以20得到的數值稱為聲壓級,聲壓級是聽力學中最重要的參數之一,單位是分貝(db) • 分貝(dB)=10 log (P/P0)2
聲音的量化 • 物理中用來表示聲音強弱的單位為分貝(dB) • 分貝是以「對數」的方式來訂定的 • 聲音的強弱單位是「比」出來的,兩個聲音之間的強弱差異代表的是「它們傳遞到接收端能量強度的比值」 • 例如:A、B兩聲音,其強弱差距為 NABdB=10㏒(A/B)
Analog to Digital 的流程 • 首先聲音的波動透過介質進入到收音麥克風 • 這些聲音波動轉換成一連串高低變化的電壓波,傳入到電腦 • 將此波透過一低通濾波器濾除其高頻雜訊 • 透過類比數位轉換器(Analog Digital Converter,ADC)將聲音波型數位化 • 將數位化音訊存入記憶體
Digital to Analog 的流程 • 將數位化音訊讀出記憶體 • 透過數位類比轉換器((Digital Analog Converter, DAC)將數位訊號還原 • 還原波再經過一低通濾波器將高次諧波濾除,聲音波形就會比較平滑。 • 透過擴大線路輸出至揚聲器
取樣頻率 (sampling rate) • 聲音數位化最重要的就是將類比訊號取樣 • 取樣所記錄到的值為「樣本」 • 取樣頻率越高,亦即取樣間隔時間越短,所擷取後的數位音訊資料也就越準確,也愈耗儲存空間 ※「週期」是每隔取樣一次所需時間 ※每秒鐘的取樣次數稱為「頻率」 ※頻率=1/週期
取樣頻率(續) • 一般我們常見的取樣頻率為11.025kHz、22.05kHz、44.1kHz • CD音質則為44.1kHz、16bits位元深度(解析度) • 取樣頻率越高與越高的位元深度會有越好的音質
量化-位元深度(解析度 ) • 取樣在每一個上升邊緣時,ADC (Analog Digital Converter)會將當時的值紀錄下來,而此紀錄的値稱為樣本,單位為bit(或稱為解析度),此動作即為量化 • 例如:CD音質,16位元深度聲音區間有216=65,536個區間,範圍-32,768~+32,767 • 愈高的位元深度,愈接近真實的聲音
量化失真 • 無論採用多高的位元深度來取樣,也不可能完全無誤差的紀錄原本輸入的類比訊號(這也是數位、類比間的鴻溝),此即所謂的「量化失真」
雜訊產生的原因 • 當一輸入波形範圍從0~10V時,採用4bits位元深度做為樣本,而4bits為0~15,扣除0有15種區間,所以: 輸入的值為(2/3)V時,樣本值為00012,而(4/3)V時,樣本值為00102,我們可發現,如果當輸入值為1V時,將被四捨五入成為00102=(4/3)V,因為位元深度造成的誤差,就造成了數位還原為類比時的不連續,雜訊就是這樣產生的
修剪 • 量化過程中如果位元深度不足,輸入的類比訊號最大值超過此位元深度可使用的區間時,就會將振幅超出最大值的部分修剪為可用區間的最大值 • 被修剪掉的部份就成為了失真或是雜音,因此輸入的聲音過大時,錄製起來的聲音會「爆音」即是此原因 原始波形 修剪後波形
音訊檔案容量 • 容量計算公式: • 取樣率(Hz) * 時間(s) * 位元深度(bit) / 8 * 聲道數量 • 【其中位元深度 / 8 的8是因為一個位元組(byte)有8個bit】 • 例: 30秒的CD音質錄製下的立體聲檔案大小為5292000bytes • 44100 * 30 * 16 / 8 * 2 = 5,292,000bytes(位元組) • 44100 *240* 16 / 8 * 2 = 42,336,000bytes(位元組) ≒ 42 MB(wav 檔格式)
MP3壓縮五個重要的技巧 • 最小聽覺門檻判定(The minimal audition threshold) • 遮蔽效應(The Masking effect) • 位元儲存槽(The reservoir of bytes) • The Joint Stereo --立體聲編碼技巧 • Huffman編碼
最小聽覺門檻 • 聽覺門檻是一種用來減少資料流的方法 • 人耳對於2kHz ~ 5kHz的敏銳度與察覺度最高 • 利用人耳的這項特性,將其他頻率的紀錄容量減少,甚至將微小不易察覺的高頻與低頻訊號刪除,以達到資料容量減少的目的
遮蔽效應 • 遮蔽效應是一種運用人類聽覺神經特性的技術 • 在心理學中的一種聽覺模型,它是說當一個感覺非常強烈時,同時間人類不太容易覺察到其他的感覺。 • 舉例:當眼睛注視強烈光源時,視線會被光線遮蔽,不容易看見其他物體;對聲音而言,在一場震耳欲聾的演唱會中,人耳很難去注意到五公尺以外傳來的微小咳嗽聲 • 遮蔽效應 針對這些被其他較突出的聲音遮蔽後,變的較不易被察覺的聲音,利用刪除、或是適當分配較低的取樣頻率,來減少其容量大小的一種技術
The bytes reservoir 位元儲存槽 • CBR是Constant Bitrate的縮寫,是說該MP3每秒鐘的資料流量是固定的,常見的MP3都是以CBR編碼,好處是壓縮速度快。 • VBR是Variable Bitrate的縮寫,每秒鐘的流量是可以變化的,好處是在訊號複雜時用比較多的容量去紀錄,波型簡單時就用比較低的流量,以有效利用空間。 • CBR的缺點:每秒鐘的流量都相同,很容易造成空間的浪費,因此有reservoir of bytes的出現,用途是當波型簡單時不要用那麼大的流量,把多餘的空間保留下來儲存將來比較複雜的波性資料,維持流量的大小,達到類似VBR 的效果。 • VBR的MP3並不需要reservoir of bytes
The Joint Stereo coding 立體聲編碼 • Joint Stereo是一種立體聲編碼技巧,主要分為Intensity Stereo(IS)和Mid/Side (M/S) stereo兩種。 • IS的是在比較低流量時使用,利用了人耳對於高頻訊號向位分辨能力的不足,將音訊資料中的低頻分解出來合成單聲道資料,剩餘的高頻資料則合成另一個單聲道資料,並另外紀錄高頻資料的位置資訊,來重建立體聲的效果。 • 例如:鋼琴獨奏的錄音就是利用這種方法,在有限的資料流量中減少音場資訊,但大幅增加音色資訊。
The Huffman coding • 一種常見的無失真壓縮方案。當PCM訊號被分成好幾個頻段並經過以上的處理之後,最後經過MDCT(Modified Discrete Cosine Transform),將波型轉換為一連串的係數。這些係數最後經過Huffman編碼來做最後的壓縮。 • 編碼的原理是將比較常出現的字串用特定的符號表示,壓縮後就得到一個紀錄每個符號代表的字串的編碼表以及一連串由各符號組成的資料內容。 • Huffman編碼可以節省約20%的空間。使用Huffman編碼後,可以發現再用WinZip、WinRAR之類的壓縮軟體並沒有辦法把MP3檔縮小多少,理由就是因為這些壓縮軟體也是利用類似Huffman編碼的技巧,因此壓縮程度有限。
多聲道音訊 • 廣泛用於DVD Movie的多聲道音訊編碼格式為 • Dolby Digital(AC3) • Digital Theater Systems(DTS) • 兩種格式均為破壞性壓縮6聲道系統,包含中央、前右、前左、後右、後左與重低音 • AC3:位元率448kbps、較廣大的市場使用 • DTS:位元率1536bps、有較佳的音質
虛擬環繞音效 • 對於一般家庭來說,多聲道喇叭系統需付出較高成本,因此發展出「虛擬環繞音效系統」 • 虛擬環繞音效系統: • Dolby Headphone:耳機使用環境 • Dolby Virtual Speaker:適用於一般雙聲道喇叭 • 兩種技術利用5.1聲道解碼後,透過「聲學模型」與「頻域轉換」等演算法,使其在兩聲道中也有5.1聲道的效果
環繞音效發展現況(1/2) • 杜比試驗室以Dolby Digital為基礎,發展出Dolby TrueHD • Dolby TrueHD • 位元深度:24-bits,取樣率:96kHz • 最高位元率 18Mbit/s,8聲道(比5.1聲道多了左、右聲道) • 最多可輸出14聲道
環繞音效發展現況(2/2) • DTS 的延續規格為 DTS-HD Master Audio • DTS-HD Master Audio • 位元深度:24-bits,取樣率:96kHz • 最高位元率 24.5Mbit/s,8聲道 • 使用LPCM非破壞性壓縮
音訊檔案格式 • 未壓縮的波形音訊格式 • 破壞性壓縮格式 • 網路串流格式 • MIDI
未壓縮的波形音訊格式 • .wav • 由微軟制定,採PCM編碼的未壓縮波形格式 • 主要用於Windows PC中,副檔名為.wav • 符合RIFF(Resource Interchange File Format)規範 • 具有檔案標頭,記載檔案的編碼參數 • 通常採用PCM編碼,但也可使用其他方式編碼 • .au • 是UNIX系統下的一種常用的格式 • 為昇陽(SUN)所開發,其副檔名為.au • 支援多種壓縮模式,現在少用了
未壓縮的波形音訊格式 • .aiff • AIFF是Apple的標準格式,其副檔名為.aiff • QuickTime就是使用aiff作為音訊的軟體 • AIFF為功能很強的格式 • 支援多種壓縮技術,但為MacOS專用格式,PC少見 • 仍有其佔有率
破壞性壓縮格式(1/4) • .mp3 • MP3(MPEG Audio Layer 3)屬於MPEG標準的一環,其副檔名為.mp3 • MP3因有高效率的資料壓縮與音質效果,再加上便利的播放程式以及編碼程式支援,使得MP3的使用者越來越多,逐漸成為多媒體影音標準的趨勢 • 可以藉由調整位元傳輸速率來改變壓縮比率,範圍16k bps~320k bps都有 • 在標準128k bps模式下,可以將一分鐘的MP3壓縮成不到1MB的檔案,播放效果接近原來音效
破壞性壓縮格式(2/4) • .wma • WMA就是Windows Media Audio,由微軟開發,其副檔名為.wma • 其最大特色就是比MP3容量還要小一半,且音質不輸mp3 • 支援無失真、有失真、語音,全方面的需求支援 • 網路串流品質極佳 • 因 Windows 系統內建播放器Windows media player,這幾年迅速竄起
破壞性壓縮格式(3/4) • .aac • 繼MP3後的新一代音訊壓縮標準 • AAC => Advanced Audio Coding,屬於 MPEG-2規格的一部份(part 7) • 由 Fraunhofer IIS, Dolby, Apple, AT&T, SONY 等公司共同開發 • MPEG-4加入AAC並整合,故又稱 MPEG-4 AAC,即 m4a • 壓縮比較MP3高,並提供多聲道立體環場音效,勝過雙聲道的MP3
破壞性壓縮格式(4/4) • .ogg(Ogg Vorbis) • 類似於 MP3 的破壞性壓縮格式 • 有更佳的聲學模型 • 與AAC相同,可以藉由更複雜的壓縮解壓縮演算法達到更加的音質與壓縮比 • OGG的使用尚不普遍
非破壞性壓縮格式(1/3) • .APE(Monkey’s Audio) • 是一種常見的非破壞性音訊壓縮格式 • 壓縮後的音質與未壓縮前一樣 • 使用.ape為副檔名 • 目前廣泛地用於音樂CD數位保存 • 官網:http://www.monkeysaudio.com/
非破壞性壓縮格式(2/3) • .FLAC • Free Lossless Audio Codec 縮寫 • 為著名的自由音訊壓縮編碼 • 亦為非破壞性壓縮,可以還原音樂CD品質 • 官網:http://flac.sourceforge.net/
非破壞性壓縮格式(3/3) • True Audio(縮寫TTA) • 是一種自由又簡單的實時無損音頻編解碼器 • 一種基於自適應預測過濾的無損音頻壓縮 • 與目前主要的其他格式相比,能有相同或更好的壓縮效果 • 相關網站:http://www.true-audio.com/
網路串流格式 • 在網路上傳輸音/視頻等多媒體資訊目前主要有下載和串流傳輸兩種方案 • 串流傳輸時,聲音、影像或動畫等影音媒體由音視頻伺服器向用戶電腦的連續、 即時傳送,用戶不必等到整個檔全部下載完畢,而只需經過幾秒或十數秒的啟動延時即可進行觀看 • 當聲音在客戶機上播放時,剩餘部分將在背景從伺服器內繼續下載。串流不僅縮短等待時間,而且不需要太大的緩存容量。 • 串流傳輸避免了用戶必須等待整個檔全部從Internet上下載才能觀看的缺點。 • 串流傳輸實作有兩種方法: • 順序串流傳輸(Progressive streaming) • 即時串流傳輸(Realtime streaming)
順序串流傳輸(Progressive streaming) • 順序串流傳輸是順序下載,在下載檔的同時用戶可觀看 • 用戶只能觀看已下載的那部分,而不能跳到還未下載的前頭部分 • 順序串流傳輸不像即時串流傳輸在傳輸期間根據用戶連接的速度做調整。 • 由於標準的HTTP伺服器可發送這種形式的檔,也不需要其他特殊協定,它經常被稱作HTTP串流式傳輸 • 順序串流傳輸比較適合高品質的短片段,如片頭、片尾和廣告,由於該檔在播放前觀看的部分是無損下載的,這種方法保證電影播放的最終品質 • 用戶在觀看前,必須經歷延遲,對較慢的連接尤其如此 • 不適合長片段和有隨機訪問要求的視頻 • 不支援現場廣播,嚴格說來,它是一種點播技術
即時串流傳輸(Realtime streaming) • 指保證媒體信號頻寬與網路連接匹配,使媒體可被即時觀看到。 • 即時串流與HTTP串流式傳輸不同,它需要專用的串流媒體伺服器與傳輸協議 • 即時串流傳輸總是即時傳送,特別適合現場事件,也支持隨機訪問 • 用戶可快進或後退以觀看前面或後面的內容。理論上,即時串流一經播放就可不停止 • 即時流式傳輸需要特定伺服器 • 如QuickTime Streaming Server、RealServer與Windows Media Server。
串流檔格式 • 串流檔格式經過特殊編碼,使其適合在網路上邊下載邊播放,而不是等到下載完整個檔才能播放。 • 串流檔編碼過程
Encoder Media Server Player 基本的串流影音系統 • Encoder—影音編碼器 • 負責把原始影音檔案,根據後端Stream Media Server所需要的影音檔案格式進行編碼。 • 例如: RealNetwork將AVI, MPEG轉成rm格式檔案 • Encoder還能從攝影機上直接獲取現場的影音資訊,讓Server能提供即時現場內容。
基本的串流影音系統 • Stream Media Server—串流媒體伺服器 • 負責把編碼器獲取的影音檔案轉換為串流資訊 • 使用者發出影音要求時,伺服器就會把影音檔案在記憶體中分割成多個資料片段,再將資料分段傳給用戶 • Server也能對影音檔案,登入用戶、傳送品質及頻寬等方面進行控制 • Player—用戶端播放器
網路串流格式 - RA 格式 • RA 格式 • RealNetwork 公司所發展的 RealAudio 格式 • 副檔名為 .ra • 屬於串流(Streaming)型式,播放時不需完全下載便可開始收聽 • 安裝RealPlayer播放器才可以播放此聲音格式 • 使用串流通道協定 RTSP (Real-Time Streaming Protocol) 的技術,達成線上音訊的播放 • 相關網址:http://www.real.com
網路串流格式 - WMA 格式 • 微軟所開發的網路串流音訊格式 • 副檔名為 .wma • 具良好的壓縮能力,壓縮率一般都可以達到 1:18 左右 • 以減少數據流量但保持音質的方法來達到比 MP3 壓縮率更高的目的 • Windows XP 中預設的編碼格式 • 錄製時可對音質進行調整 • 音質 - 可與 CD 媲美 • 網路應用 – 可調高壓縮率讓資料能順暢播放 • Windows Media 編碼器相關網址:http://www.microsoft.com/windows/windowsmedia/download/default.asp
播放網路串流音訊 • RealNetworks 的 RealAudio (RA) 格式 • 使用 RealOne 軟體 • freeware 軟體,可由 Internet 下載安裝、註冊後免費使用 • Microsoft 的 Windows Media Audio (WMA) 格式 • 大部分的網路串流音訊是由網站中點選收聽的內容,瀏覽器會依據串流音訊的格式自動執行所需的播放工具
RealNetworks • 1994年,最早在網際網路上使用媒體播放技術 • 網路上常見格式