整合性封包保護機制提升語音通訊之品質

整合性封包保護機制提升語音通訊之品質 Ren-Yuh Lu

Outline • Introduction • MANET • Motivation & Objective • Problem Description • Related Work • Reliable Blast UDP • Partial-Reliable TCP • 整合性封包保護機制提升語音通訊之品質 • 分辨重要封包的方法 • 整合性封包保護技術 • Evaluation & Performance Analysis

Introduction • VoIP ( Voice over IP ) 是一種透過網際網路以數位化的方式來傳輸語音封包的技術。 • 近年來，VoIP因為其使用簡單、成本低廉等特性，導致使用率及使用人口與日俱增。 • 本研究是為了使VoIP能夠在High Loss Rate的網路環境下更順暢地運作所設計。 • VoIP運作在High Loss Rate的網路環境中會遇到一些問題，我們將以MANET作為例子加以說明。

MANET • MANET 「群組行動電腦網路」是一種行動式無線區域網路，對群組行動使用者提供一個可在行動中使用的電腦網路。 • 一個 MANET 係由一組行動電腦 ( 筆記型電腦或具有 WiFi能力的 PDA手機 ) 組成，其間以 Multi-Hop Ad-Hoc 無線區域網路連結成 Wireless Intranet。 • 各個行動電腦之間可藉由高速的 Wireless Intranet 進行即時多媒體網路通訊。

Motivation & Objective • High Loss Rate的網路環境，例如MANET，具有以下的缺點： • 錯誤率很高 • 沒有Server管理節點 • 在這樣的網路環境中使用VoIP，會有一些問題需要克服。

Problem Description • VoIP對時效性的要求極高，為了符合這個要求，現今的VoIP系統大部份都使用UDP傳輸層協定。 • UDP的特性： • 不保證一定送達 • 如果VoIP運用在錯誤率很高的網路環境時，可能會因為遺失太多封包而影響通話品質。 • 我們即將研究一些機制用以提高VoIP的品質。

Related Work • Reliable Blast UDP • Partial-Reliable UDP

Reliable Blast UDP

Partial-Reliable TCP

整合性封包保護機制提升語音通訊之品質 • 假設除了人聲之外，其他聲音均視為噪音。 • 我們即將研究一個分辨重要封包的方法，可能搭配Partial-Reliable UDP，保證能夠維持VoIP的通訊品質。 • 分辨重要封包的方法 • VAD ( Voice Activity Detection ) • 整合性封包保護技術

分辨重要封包的方法

VAD • Time Domain VAD技術 • Frequency Domain VAD技術 • 混合式VAD技術 • 個性化VAD技術

Time Domain VAD • 在擷取語音Frame但尚未壓縮之前，就利用某些特徵判斷封包的重要性。 • 先把語音分段，把前面區段的語音Frame暫存起來，確定是語音時就傳送出去。 • 語音通訊有時效性，即傳輸的Delay Time不能趟長，則用來暫存語音Frame的Buffer不能太長。

Time Domain VAD • 這類型的方法較為簡單，但是當信號雜訊比 ( SNR ) 較低時或能量變化較快速時 ( 即背景噪音較高時 ) 此法較不適用。

Frequency Domain VAD • 在噪音較高的情況下，就要藉助於Frequency Domain的分析分辨語音與噪音。 • 假設噪音的頻譜與White Noise相似，而語音的頻譜則集中在40Hz至4000Hz之間，我們將以Entropy之值作為分辨語音與White Noise的參數。

Frequency Domain VAD — Entropy-Based • An Example of Entropy： • The entropy of class A is bigger than the entropy of class B. Class 2 Class 1

Frequency Domain VAD — Entropy-Based • 上式中：　　　　　　　　　　　即為在Frame t中，訊號出現在ω頻帶的機率。 • 頻寬越窄的訊號 (例如Sine Wave)，Entropy越低。

Frequency Domain VAD — Entropy-Based • 若發話端背景雜訊與White Noise相似，則Entropy會較高。 • 根據上述做法，可以利用語音和Noise在頻率上特性的相異，計算Entropy差異，藉此設定一個Threshold值，即可判斷語音中的Speech Segment或non-Speech Segment。 • 區分出Speech Segment和non-Speech Segment之後，我們可以試著只傳送Speech Segment，以減少網路的Overhead。

Frequency Domain VAD — Entropy-Based • 優點： • 對Noise的變動較不敏感，即使雜訊嘈雜且不規則，本方法仍然有效。 • 即使訊號的SNR較差，仍然可以分辨Speech Segment或non-Speech Segment。 • 缺點： • 需要耗費龐大的計算資源。 • 可能會使VOIP的即時性減低，封包的Delay會大幅增加。 • 若收音器處於非常嘈雜且噪音相當不規則的環境下（Ex：White Noise加Colored Noise），可能會造成non-Speech Segment和Speech Segment的Entropy值接近，而導致辨識上的錯誤率增加。

混合式VAD • 針對SNR高且Noise變化小，或雜訊頻寬接近語音頻寬的Colored Noise的環境，使用Energy-Based VAD。 • 節省運算資源。 • 避免判斷的正確性受到過於接近的語音頻譜的雜訊影響。 • 若發話端SNR較低或Noise變化較大，但雜訊特性為頻寬較寬的White Noise時，使用Entropy-Based VAD。 • 避免變化迅速的Noise振幅影響判斷正確率。 • 若Noise振幅和雜訊頻譜皆不穩定，則將兩種VAD混合使用。

個性化VAD • 假設在每個傳送端由於發話地點環境的差異，都存在不同特性 ( 頻譜與振幅 ) 的Noise。 • Method 1 • Method 2

個性化VAD — Method 1 • 在傳送端先分析Noise特性，在傳送時用來過濾Noise。雜音消除

個性化VAD — Method 2 • 使用兩個麥克風分別收音，一個收錄背景雜音，一個收錄說話人聲，再利用Voice Cancellation濾除Noise。 Clean & Background 背景雜音消除技術

整合性封包保護技術 • Model： • 1. 定義基本封包間隔時間 ( msec / packet )，簡稱為「基本時隔」最常用的基本時隔為 20 ( ms/packet ) 及30 ( ms / packet )。 • 2. 將Redundant Voice Packets視為不同的Packet Stream。 • 3. 不同的Voice Packets可用不同的壓縮碼 ( Codec )。 • 4. 所有的Packet Stream的時隔應為基本時隔的倍數。 • 5. 定義第一個Packet Stream為基本Stream。 • 6. 其他的Packet Stream稱為Redundant Stream，彼此之間相差至少一個時隔。 • 7. 最後，將所有Packet Stream Piggyback在一起，變成一個時隔為基本時隔的單一Packet Stream。

Example 1 — Redundancy Only Voice Stream 2 1 2 3 4 5 6 Voice Stream 1 1 4 2 3 5 6 7 40 120 0 20 60 80 100 Time ( msec ) Voice Stream 7 6 1 2 3 5 6 1 2 4 3 4 5 40 120 0 20 60 80 100 Time ( msec )

Example 2 — Different Codec & Redundancy Voice Stream 3 4+5+6 1+2+3 6 Voice Stream 2 1 2 3 4 5 Voice Stream 1 1 6 2 3 4 5 7 40 120 0 20 60 80 100 Time ( msec )

Example 2 — Different Codec & Redundancy Voice Stream 3 Voice Stream 2 Voice Stream 1 1 2 1 3 2 5 4 6 5 7 6 4 3 1+2+3 4+5+6 40 120 0 20 60 80 100 Time ( msec )

Example 3 — VAD & Redundancy Voice Stream 2 1 2 3 4 5 6 Voice Stream 1 1 4 2 3 5 6 7 40 120 0 20 60 80 100 Time ( msec ) Voice Stream 7 6 1 2 3 5 6 1 2 4 3 4 5 40 120 0 20 60 80 100 Time ( msec )

Evaluation & Performance Analysis • 定義效能評估指標： • VoIP • 總諧波失真 ( Total Harmonic Distortion, THD ) • VAD • 語音辨識率 • Redundancy • Cost vs Packet傳輸成功率 • P-R UDP • Hop Count vs 重要封包傳輸成功率 • Loss Rate vs 重要封包傳輸成功率 • Traffic Load vs 重要封包傳輸成功率

VoIP指標 — THD • 諧波失真用來表示檢測非線性失真（Nonlinear Distortion）的結果。 • 非線性失真： • 輸入訊號經過處理後，輸出時所產生的錯誤部分，這個錯誤部分與原本的輸入訊號無關，通常會在輸入訊號以外的頻率產生其他錯誤訊號。 • 總諧波失真則是用來測試每一個從原始訊號產生出來的新頻率 ( 就是剛才定義的非線性失真 ) 這些屬於非線性失真的頻率就稱為諧波 ( harmonics ) 。

VoIP指標— THD • 這些諧波的產生位置是原始訊號頻率的整數倍位置，例如 1000Hz 的諧波就是 2kHz、3kHz、4kHz 等。 • 測試 THD 時，是發出 1000Hz 的聲音來檢測，所以圖形中在 1000Hz 的位置會有峰波，我們要觀察的是 1000Hz 右邊產生出來的諧波多寡，這個值越小越好。

VAD指標 — 語音辨識率

Redundancy指標 — Cost vs 總封包傳輸成功率

P-R UDP指標 — Hop Count

P-R UDP指標— Loss Rate

P-R UDP指標— Traffic Load

Evaluation & Performance Analysis

實驗環境設計

整合性封包保護機制提升語音通訊之品質

整合性封包保護機制提升語音通訊之品質

Presentation Transcript