語音處理 ─ 人與機器的介面

語音處理─ 人與機器的介面指導教師：鄭文助老師學生：劉清余 2091235114 施瓊雯 2091235146

內容綱要 • 前言 • 基本概念 • 應用實例 • 發展概況

前言 在科幻電影裏，常見的一個情節是主角在太空船中電腦系統互相對話。還記得美國電視影集「霹靂遊俠」嗎？除了緊湊的故事情節外，最讓我們稱奇的就是「霹靂車：夥計」！車與人的對話，猶如真人的思考與應對，這在當時可說是未來世界的夢想，不過在多年後的今天，人類真的做到了，聲控手機、自動電話總機…等等語音發展應用，再再證明語音世界真的來臨了。

前言 • 語音是人與人之間最自然的溝通方式，透過語音，人們無須借助額外的工具便可以彼此交換各種資訊。雖然我們從眼睛接收到的刺激，比從耳朵所接收到的要來的多，但是不可否認的，要與他人進行溝通，使用語音絕對比只用眼睛更有效率。

基本概念─語音本質 • 語音是一種聲波，它本身帶有語言學上的相關資訊，即我們說出的這段語音所對應的文字訊息。除此之外，語音的聲調高低、抑揚頓挫，以及與說話者當時的情緒，也可以從語音中得知。人類可以從中得知對方於交談中不斷變換的語意、語氣及情緒，至於電腦呢?就目前而言，還沒有辦法達到這樣的境界。 • 基本上，可以從兩個方面來觀察一段語音訊號的特性

語音訊號的特性 • 語音波形：經由音效卡將語音訊號轉錄為數位資料後，以時間為橫軸，將每一個時間點所對應的能量繪出的圖形。 • 頻譜圖：如果視語音為一種密碼，那麼頻譜圖就是提供一種用來將語音歸屬到不同密碼類別的最佳方式。其產生是一種翻譯的過程，它將我們耳朵所處理的語音及其他聲音轉換成可見的影像，供我們進一步觀察。

『今天天氣很好』的 語音波型與對應的頻譜圖語音錄製到電腦中在依時間軸所繪出的波形圖將語音以不同於波形的另一種形式表達之頻譜圖

基本概念─語音合成 • 語音合成或稱為語音生成，是一項取代傳統上人們只能由電腦螢幕上讀取電腦回應訊息的重要技術。 • 早期，為了讓電腦能藉由語音回報使用者所下指令的結果，必須先行錄製各種不同的語音音檔儲存在電腦上，當電腦需要進行回應的時候，再從中找尋對應的音檔播出。

基本概念─語音合成 • 更有效率的方法是把所有基本的音節，像是中文裡的所有單字詞都錄製下來，需要輸出的時候，將這些單字詞前後連接起來經由喇叭播出。 • 但是缺點是字與字連接的地方聽起來會有不連貫的感覺，需要進一步將連接處進行平滑化處理。

基本概念─語音合成 • 最後一類且運用最廣的是將所收集到的語音，轉換成具代表性的參數儲存起來，需要語音輸出的時候，將這些參數經過逆轉換，找出對應的語音訊號，並加上有關時間長度與聲調的資料修正後，再予以合成播放出。

語音合成的流程 國語詞典發音規則句調音韻規則語音合成演算法語音輸出文字輸入語意前處理與詞彙分析音韻產生語音合成器音韻資料庫

基本概念─語音合成 • 優點： • 機器可以透過語音拉近了人類的距離。 • 可以輕易地了解訊息的內容。 • 訊息可以完全地被接受到。 • 輕易地得知遠端的訊息內容。 • 可以達到節省資源的效果。 • 缺點： • 合成語音並不適用於傳遞大量且內容複雜的資 • 訊給一般大眾。

基本概念 ─語音辨識 • 語音辨識是讓電腦或是電子設備從我們所發出的語音中找出所含的文字意義，可視為一種由語音轉換為文字的過程。 • 語音辨識技術的優劣，就取決於它是否能從接收到的語音訊號中擷取相對應的文字內容！ • 文獻中有關語音辨識的研究論文最早出現於一九五二年，內容是描述貝爾實驗室的 • 一套語音數字辨識器。

語音辨識的流程 語音輸入文字輸出語音訊號參數化語音辨識化語音模型資料庫語言模型資料庫

基本概念 ─語音辨識 • 特點： • 最簡單而又直接的方式。 • 不受時間、空間的限制。 • 藉由電話線路的傳輸，更可以對遠端的機器下達指令。 • 缺點： • 和語音合成一樣，所有輸入的或是進行中的對話都無法列印出來 • 在吵雜的環境中使用語音輸入時，辨識器需要先行去除雜訊，才能讓語音辨識的正確性維持在一定水準之上。

語音辨識的困難 • 由於目前世界上各種語音辨識技術，尚未真正達到二種語言以上夾雜辨識的處理能力，ＩＢＭ目前中文輸入的語音元素只針對中文部份，若中文要置入英文辨識，必須先克服容量所佔據的龐大資料庫。 • 不過在現今的語音輸入技術不夠人性化，必須以朗讀的方式輸聲音忽快忽慢、多語助詞等具有感情的輸入，是不利於辨識的。

語意理解 • 語意的理解就是要知道人、事、時、地、 • 物這五項的內容。只要能夠把這幾個項目 • 填寫清楚，再搭配眼前的時間與空間資料， • 就可以初步理解一句話的意涵。

機器能善解人意─語意理解 • 譬如我六月十日早上八點要搭火車去台北： • 1.「人」這一項可以填入「我」，指的是說話者， • 2.「事」就填入「搭火車去台北」， • 3.「時」就填入「六月十日早上八點」。 • 將一句話拆解成五個要項進行分析，即可讓電腦具備簡單的語意理解能力。

語言表達的功能─對話系統 • 這是一套人與機器之間進行對話的系統。 • 對話系統包含語音辨識、語意理解、對話管理及語音合成四個子系統： • 首先，使用者輸入的語音經由語音辨識系統辨識出對應的文字，這些文字再送入語意理解系統分析出該句的語意之後，即由對話管理系統判斷系統應該執行的動作及適當的回應，回應的訊息經由語音合成系統做成語音輸出以回覆使用者，並等待使用者下一回合的輸入。

對話系統結構圖 • 語音 • 輸入語音合成系統輸出裝置語音辨識系統任務執行/ 訊息回應語音理解系統對話管理系統音韻資料庫

對話系統的類型 • 由使用者主導的對話方式，它是由使用者提出要求，讓電腦提供或協助查詢資訊。雖比較自然，但在系統實作上的困難度較高。 • 由電腦主導的對話方式，這是目前最常見的語音對話系統架構。對話是由電腦以固定的開場白揭開序幕，提供某些固定的服務項目讓使用者選擇，於使用者回應且經電腦確認後，再由電腦回應。

對話系統的類型 • 由於這兩大類對話形態各具優缺點，故提出 • 另一種可以交互主導對話方式的系統架構：亦 • 即除了電腦可以提出選項讓使用者選擇外，使 • 用者也可以提出額外的選項讓電腦回應。目前常見的對話系統主要應用在資料查詢上。

對話系統的應用 • 航空運輸資訊服務系統，是由美國國防部高等研究計畫局資助的研究計畫所開發的。 • 丘比特氣象查詢系統，由麻省理工學院發展出來的，主要是透過電話使用語音查詢。國內在對話系統的應用方面，亦是著重在查詢系統上，研究單位則包括台大、成大、工研院等。所開發出的相關系統：工研院前瞻技術研究中心所開發的『伊喂得中文電話語音對話系統』。

家用機器人：日本東芝公司在92年3月底於川崎實驗室 展示其原型─『ApriAlpha』。乃以顏面及語音辨識技術，協助使用者操控家中電子產品即接受訊息。預計將於2005年正式上市。語音處理運用實例

語音處理運用實例 • 德國的科技人員則研製成功了一種會說話的全自動洗衣機設計人具格化的東西。使用時，如果主人忘了關洗衣機門或未開水龍頭，就會說“洗好了，請把衣物拿出。”用完洗衣機，若沒有及時擦淨洗衣機，它又會提醒你：“請愛護我。” ，她有個女性化的名字『荷米妮』(Hermine)。當你告訴它衣服被紅酒弄髒了，它會建議你喝啤酒，因爲啤酒弄髒了的衣服容易洗。如果你告訴它要洗一些尿布，它會發出生氣的喊叫聲。

語音處理運用實例 加速漢堡訂單：係由ABS公司的TALKX-ULTRA系統與PANASONIC DBS電話系統所組成。首先，在系統裡建立問答信箱，使系統向外面的訂貨者要求陳述公司名稱、姓名、產品名稱及數量，最後系統再要求訂貨者確認或重新存錄其回答。

語音處理運用實例 公司的酒品倉庫：酒品倉庫之訂貨系統係Digital Speech公司的語音處理系統－TMX系列之IVR應用，系統接受來自酒品業務員的訂單，並將其傳至主電腦，業務員可從任何按鍵式電話，輸入其特有之密碼進入系統，並可查核顧客信用狀況、存貨狀況、輸入顧客訂單及確定交貨日期。

語音處理運用實例 娛樂資訊專線：密蘇里州布蘭遜市的大殿堂夜總會，該夜總會使用一套ETC的Digicept Intr-Act IVR系統，提供娛樂資訊專線給觀光客使用。想要瞭解布蘭遜市有那些娛樂場所的人，可撥電話至大殿堂資訊專線，他們將會得知目前時間及當地氣溫，按下他們想要遊玩的地點號碼，如果遊客只想知道時間和氣溫，聽完之後掛斷即可，這是一項極為受歡迎的服務。

語音處理運用實例 ＫＥＹ　ＶＯＩＣＥ語音處理信箱： Key Voice Technologies的Verbatim AudioSearch為Verbatim語音處理系統的選擇應用模組，AudioSearch讓使用者創造可供搜尋資料庫和播放聲音的強化語音內文應用。AudioSearch有兩項新的信箱型式。

語音處理運用實例 Parity公司協助測量水位：數位諮詢系統公司設置了一套可隨時測量全美河川水位的系統，為了設計出這套系統，該公司採用了等位軟體公司應用導向的VOS程式語言，這項應用對全美水源供給的監測來說，扮演著極為重要的角色。

未來展望 • 我們可以了解語音處理在人機界面所占的重要性，在國內外研究學者們不斷的努力下，人類與機器直接用口語溝通的夢想，得以在各個不同的應用環境中實現。然而，目前的一些應用，由於語音處理技術未臻成熟，尚有改善的空間。相信只要持續地進行這方面的研究，投入更多的研究人力，將目前既有的研究成果加以改進，一定可以將人機界面建構得更好，在操作上變得更自然，人機間的互動可以更流暢，使得機器給人的印象也可以更人性化。

語音處理 ─ 人與機器的介面

語音處理 ─ 人與機器的介面

Presentation Transcript