380 likes | 537 Views
整合性封包保護機制提升語音通訊之品質. Ren-Yuh Lu. Outline. Introduction MANET Motivation & Objective Problem Description Related Work Reliable Blast UDP Partial-Reliable TCP 整合性封包保護機制提升語音通訊之品質 分辨重要封包的方法 整合性封包保護技術 Evaluation & Performance Analysis. Introduction.
E N D
整合性封包保護機制提升語音通訊之品質 Ren-Yuh Lu
Outline • Introduction • MANET • Motivation & Objective • Problem Description • Related Work • Reliable Blast UDP • Partial-Reliable TCP • 整合性封包保護機制提升語音通訊之品質 • 分辨重要封包的方法 • 整合性封包保護技術 • Evaluation & Performance Analysis
Introduction • VoIP ( Voice over IP ) 是一種透過網際網路以數位化的方式來傳輸語音封包的技術。 • 近年來,VoIP因為其使用簡單、成本低廉等特性,導致使用率及使用人口與日俱增。 • 本研究是為了使VoIP能夠在High Loss Rate的網路環境下更順暢地運作所設計。 • VoIP運作在High Loss Rate的網路環境中會遇到一些問題,我們將以MANET作為例子加以說明。
MANET • MANET 「群組行動電腦網路」是一種行動式無線區域網路,對群組行動使用者提供一個可在行動中使用的電腦網路。 • 一個 MANET 係由一組行動電腦 ( 筆記型電腦或 具有 WiFi能力的 PDA手機 ) 組成, 其間以 Multi-Hop Ad-Hoc 無線區域網路連結成 Wireless Intranet。 • 各個行動電腦之間可藉由高速的 Wireless Intranet 進行即時多媒體網路通訊。
Motivation & Objective • High Loss Rate的網路環境,例如MANET,具有以下的缺點: • 錯誤率很高 • 沒有Server管理節點 • 在這樣的網路環境中使用VoIP,會有一些問題需要克服。
Problem Description • VoIP對時效性的要求極高,為了符合這個要求,現今的VoIP系統大部份都使用UDP傳輸層協定。 • UDP的特性: • 不保證一定送達 • 如果VoIP運用在錯誤率很高的網路環境時,可能會因為遺失太多封包而影響通話品質。 • 我們即將研究一些機制用以提高VoIP的品質。
Related Work • Reliable Blast UDP • Partial-Reliable UDP
整合性封包保護機制提升語音通訊之品質 • 假設除了人聲之外,其他聲音均視為噪音。 • 我們即將研究一個分辨重要封包的方法,可能搭配Partial-Reliable UDP,保證能夠維持VoIP的通訊品質。 • 分辨重要封包的方法 • VAD ( Voice Activity Detection ) • 整合性封包保護技術
VAD • Time Domain VAD技術 • Frequency Domain VAD技術 • 混合式VAD技術 • 個性化VAD技術
Time Domain VAD • 在擷取語音Frame但尚未壓縮之前,就利用某些特徵判斷封包的重要性。 • 先把語音分段,把前面區段的語音Frame暫存起來,確定是語音時就傳送出去。 • 語音通訊有時效性,即傳輸的Delay Time不能趟長,則用來暫存語音Frame的Buffer不能太長。
Time Domain VAD • 這類型的方法較為簡單,但是當信號雜訊比 ( SNR ) 較低時或能量變化較快速時 ( 即背景噪音較高時 ) 此法較不適用。
Frequency Domain VAD • 在噪音較高的情況下,就要藉助於Frequency Domain的分析分辨語音與噪音。 • 假設噪音的頻譜與White Noise相似,而語音的頻譜則集中在40Hz至4000Hz之間,我們將以Entropy之值作為分辨語音與White Noise的參數。
Frequency Domain VAD — Entropy-Based • An Example of Entropy: • The entropy of class A is bigger than the entropy of class B. Class 2 Class 1
Frequency Domain VAD — Entropy-Based • 上式中: 即為在Frame t中,訊號出現在ω頻帶的機率。 • 頻寬越窄的訊號 (例如Sine Wave),Entropy越低。
Frequency Domain VAD — Entropy-Based • 若發話端背景雜訊與White Noise相似,則Entropy會較高。 • 根據上述做法,可以利用語音和Noise在頻率上特性的相異,計算Entropy差異,藉此設定一個Threshold值,即可判斷語音中的Speech Segment或non-Speech Segment。 • 區分出Speech Segment和non-Speech Segment之後,我們可以試著只傳送Speech Segment,以減少網路的Overhead。
Frequency Domain VAD — Entropy-Based • 優點: • 對Noise的變動較不敏感,即使雜訊嘈雜且不規則,本方法仍然有效。 • 即使訊號的SNR較差,仍然可以分辨Speech Segment或non-Speech Segment。 • 缺點: • 需要耗費龐大的計算資源。 • 可能會使VOIP的即時性減低,封包的Delay會大幅增加。 • 若收音器處於非常嘈雜且噪音相當不規則的環境下(Ex:White Noise加Colored Noise),可能會造成non-Speech Segment和Speech Segment的Entropy值接近,而導致辨識上的錯誤率增加。
混合式VAD • 針對SNR高且Noise變化小,或雜訊頻寬接近語音頻寬的Colored Noise的環境,使用Energy-Based VAD。 • 節省運算資源。 • 避免判斷的正確性受到過於接近的語音頻譜的雜訊影響。 • 若發話端SNR較低或Noise變化較大,但雜訊特性為頻寬較寬的White Noise時,使用Entropy-Based VAD。 • 避免變化迅速的Noise振幅影響判斷正確率。 • 若Noise振幅和雜訊頻譜皆不穩定,則將兩種VAD混合使用。
個性化VAD • 假設在每個傳送端由於發話地點環境的差異,都存在不同特性 ( 頻譜與振幅 ) 的Noise。 • Method 1 • Method 2
個性化VAD — Method 1 • 在傳送端先分析Noise特性,在傳送時用來過濾Noise。 雜音消除
個性化VAD — Method 2 • 使用兩個麥克風分別收音,一個收錄背景雜音,一個收錄說話人聲,再利用Voice Cancellation濾除Noise。 Clean & Background 背景雜音 消除技術
整合性封包保護技術 • Model: • 1. 定義基本封包間隔時間 ( msec / packet ),簡稱為「基本時隔」最常用的基本時隔為 20 ( ms/packet ) 及30 ( ms / packet )。 • 2. 將Redundant Voice Packets視為不同的Packet Stream。 • 3. 不同的Voice Packets可用不同的壓縮碼 ( Codec )。 • 4. 所有的Packet Stream的時隔應為基本時隔的倍數。 • 5. 定義第一個Packet Stream為基本Stream。 • 6. 其他的Packet Stream稱為Redundant Stream,彼此之間相差至少一個時隔。 • 7. 最後,將所有Packet Stream Piggyback在一起,變成一個時隔為基本時隔的單一Packet Stream。
Example 1 — Redundancy Only Voice Stream 2 1 2 3 4 5 6 Voice Stream 1 1 4 2 3 5 6 7 40 120 0 20 60 80 100 Time ( msec ) Voice Stream 7 6 1 2 3 5 6 1 2 4 3 4 5 40 120 0 20 60 80 100 Time ( msec )
Example 2 — Different Codec & Redundancy Voice Stream 3 4+5+6 1+2+3 6 Voice Stream 2 1 2 3 4 5 Voice Stream 1 1 6 2 3 4 5 7 40 120 0 20 60 80 100 Time ( msec )
Example 2 — Different Codec & Redundancy Voice Stream 3 Voice Stream 2 Voice Stream 1 1 2 1 3 2 5 4 6 5 7 6 4 3 1+2+3 4+5+6 40 120 0 20 60 80 100 Time ( msec )
Example 3 — VAD & Redundancy Voice Stream 2 1 2 3 4 5 6 Voice Stream 1 1 4 2 3 5 6 7 40 120 0 20 60 80 100 Time ( msec ) Voice Stream 7 6 1 2 3 5 6 1 2 4 3 4 5 40 120 0 20 60 80 100 Time ( msec )
Evaluation & Performance Analysis • 定義效能評估指標: • VoIP • 總諧波失真 ( Total Harmonic Distortion, THD ) • VAD • 語音辨識率 • Redundancy • Cost vs Packet傳輸成功率 • P-R UDP • Hop Count vs 重要封包傳輸成功率 • Loss Rate vs 重要封包傳輸成功率 • Traffic Load vs 重要封包傳輸成功率
VoIP指標 — THD • 諧波失真用來表示檢測非線性失真(Nonlinear Distortion)的結果。 • 非線性失真: • 輸入訊號經過處理後,輸出時所產生的錯誤部分,這個錯誤部分與原本的輸入訊號無關,通常會在輸入訊號以外的頻率產生其他錯誤訊號。 • 總諧波失真則是用來測試每一個從原始訊號產生出來的新頻率 ( 就是剛才定義的非線性失真 ) 這些屬於非線性失真的頻率就稱為諧波 ( harmonics ) 。
VoIP指標— THD • 這些諧波的產生位置是原始訊號頻率的整數倍位置,例如 1000Hz 的諧波就是 2kHz、3kHz、4kHz 等。 • 測試 THD 時,是發出 1000Hz 的聲音來檢測,所以圖形中在 1000Hz 的位置會有峰波,我們要觀察的是 1000Hz 右邊產生出來的諧波多寡,這個值越小越好。