1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL • 1.1. Obiectivele prelucrării semnalului vocal • Reprezentarea numerică a semnalului vocal • moduri de reprezentare • proprietăţi statistice ale semnalului vocal • codarea şi compresia vorbirii • Analiza semnalului vocal în domeniile timp şi frecvenţă • punerea în evidenţă a proprietăţilor spectrale ale semnalului vocal • utilizarea analizei spectrale în determinarea unor parametri utili în sinteză şi recunoaştere

Sinteza semnalului vocal (sinteza vorbirii) • = producerea semnalului vocal pornind de la un dicţionar de elemente fonetice şi de reguli, sau pornind de la o anumită reprezentare parametrică a semnalului. • sinteza unor mesaje vocale cu conţinut predeterminat • sinteza vorbirii pornind de la un text oarecare scris • Recunoaşterea vorbirii • = a face maşina capabilă să interpreteze cuvintele sau frazele pronunţate de un vorbitor. • recunoaşterea cuvintelor izolate • recunoaşterea cuvintelor înlănţuite • recunoaşterea de mari vocabulare • recunoaşterea vorbirii continue

Recunoaşterea vorbitorului • = se urmăreşte recunoaşterea (identificarea) unei persoane după voce • Aplicaţii speciale ale prelucrării semnalului vocal • aplicaţii în domeniul medical, cum ar fi cele referitoare la patologia laringelui, bazate pe detectarea unor variabilităţi de pronunţie sau detectarea unor stări particulare (stres, minciună, etc.) • aplicaţii în studiul limbilor străine • aplicaţii în dezvoltarea sistemelor de comunicaţie multimedia.

1.2. Generalităţi asupra semnalului vocal • Vorbirea este facultatea de a comunica gândurile printr-un • sistem de sunetearticulate. • Informaţia conţinută într-un mesaj este dată de • fluctuaţiile presiunii aerului, generate şi apoi emise de către • aparatul fonator uman. • aceste fluctuaţii constituie semnalul vocal. • ele sunt detectate de către ureche, care realizează • o operaţie de analiză a semnalului. • rezultatele analizei sunt transmise creierului, • care le interpretează şi le foloseşte pentru • a comanda funcţiile vorbirii.

Un mesaj vocal este constituit dintr-o succesiune de • unităţi (elemente) minimale lipsite de sens, numite foneme, • care prin asociere generează structuri sau elemente constitutive • de nivel superior: silabe, cuvinte, fraze. • Conţinutul unui mesajvocal poate fi definit în sens strict • şi în sens larg. • În sensstrictconţinutul mesajului este dat de • inteligibilitatea sa (asemănător cu un mesaj scris). • În sens larg, conţinutul mesajului vocal ia în consideraţie • toate intonaţiile ce însoţesc producerea sa (creştere • puternică a conţinutului mesajului vocal faţă de cel scris).

O trăsătură specifică a semnalului vocal este redundanţa. • (redundanţă = introducerea în mesaj a unor componente • informaţionale mai mult decât este necesar pentru • inteligibilitatea sa completă în absenţa zgomotului). • prezenţa redundanţei în semnalul vocal îl face rezistent • la perturbaţiile mediului ambiant. • redundanţa este prezentă şi la nivel semantic, fapt ce • uşurează înţelegerea mesajului de către creier. • Cadenţa maximă (ritmul maxim) de asimilare a unui mesaj • este determinată de conţinutul strict al mesajului. • Fie unmesaj constituit din elemente discrete aparţinând unui • ansamblu de date (de exemplu un alfabet) X = {x1, x2, …, xL}.

Dacă p(xi) reprezintă probabilitatea de apariţie a simbolului xi, • selectarea acestuia va aduce informaţiaI = – log2p(xi) . • Entropia sursei (informaţia medie asociată producerii mesajului X) • este dată de relaţia: [biţi] • Entropia prezintă un maxim care s-ar produce atunci când • fonemele ar fi echiprobabile: [biţi] • Pentru fiecare limbă se pot determina mărimile p(xi) (reprezentând • probabilităţile de apariţie a fonemului xi) prin analize statistice • efectuate pe lucrări literare cu un vocabular bogat.

pentru limba engleză (L = 42): • Hmax(X) = log242 = 5.39 biţi Hs(X) = 4.9 biţi • pentru limba franceză (L = 36): • Hmax(X) = log236 = 5.17 biţi • Hs(X) = 4.73 biţi • pentru limba română (L = 34): • Hmax(X) = log234 = 5.08 biţi • Hs(X) = necunoscut • pe baza mărimilor determinate statistic, fiecare fonem poate fi • codat cu 5 biţi. • într-o conversaţie curentă sunt pronunţate în medie 10 foneme pe • secundă, ceea ce conduce la un debit informaţional de 50 biţi/s.

Formula de calcul pentru debitul maxim de informaţie pe un • canal analogic fără erori (capacitatea canalului): [biţi/sec.] • B = banda de trecere [Hz] • S/Z = raportul semnal pe zgomot • pentru un canal telefonic cu B = 3000 Hz şi S/Z = 30 dB rezultă: [biţi/sec.] redundanţă mare în acest canal (faţă de 50 biţi/s stabilit anterior). • există mult mai multă informaţie într-un mesaj telefonic decât • într-un mesaj scris, unde informaţia este redusă la strictul necesar • pentru inteligibilitate; sporul de informaţie este datorat intonaţiei, • timbrului, etc.

1.3. Mecanismul fonaţiei • Vorbirea = produs al aparatului fonator uman, controlat de • sistemul nervos central, care primeşte permanent informaţie • prin reacţia acustică (recepţia auditivă a semnalului). • Aparatul fonator uman nu este un aparat special destinat producerii • vorbirii, ci este realizat prin adaptarea la această funcţie a unor • organe aparţinând în principal aparatelor respirator şi masticator. • Aparatul respirator furnizează energia necesară producerii vorbirii, • atunci când aerul este expirat prin trahee. • La capătul superior al traheei se găseşte laringele, unde presiunea • aerului este modulată înainte de a fi aplicată canalului (tractului) • vocal care se întinde de la laringe la buze.

În zona centrală a laringelui se găsesc coardele vocale; acestea pot • închide complet laringele, iar depărtându-se, formează o deschidere • triunghiulară, denumită glotă. • Prin glotă, aerul trece liber în timpul respiraţiei şi vocii şoptite, • precum şi în timpul formării sunetelor nesonore. • Sunetele sonore se produc prin vibraţia periodică a coardelor vocale, • tractului vocal fiindu-i aplicate impulsuri periodice de presiune. • Tractul vocal este un ansamblu de cavităţi situate între glotă şi buze, • cuprinzând cavitatea faringiană, cavitatea bucală şi cavitatea nazală • (în derivaţie cu cavitatea bucală).

Intensitatea sunetului emis este strâns legată şi determinată de • presiunea aerului aflat în amonte de laringe. • Înălţimea sunetului este determinată de frecvenţa de vibraţie a • coardelor vocale, denumită frecvenţă fundamentală (F0 - pitch). • Inversul acestei frecvenţe (T0), se numeşte perioadă fundamentală. • Frecvenţa fundamentală poate varia între limitele: • 80 - 200 Hz pentru o voce masculină • 150 - 450 Hz pentru o voce feminină • 200 - 600 Hz pentru o voce de copil • Două sunete sonore de aceeaşi intensitate şi de aceeaşi înălţime • se disting prin timbru, care este determinat de amplitudinile • relative ale armonicelor fundamentalei.

Unui sunet sonor îi corespunde în timp un semnal cvasiperiodic. • Structura armonică a spectrului se mai numeşte structură depitch. • Anvelopa spectrului prezintă maxime denumite formanţi, care • corespund frecvenţelor proprii ale tractului vocal. • Spectrul unui sunet sonor are structură formantică.

Un sunet nesonor nu prezintă structură periodică; forma sa în • domeniul timp este asemănătoare cu cea a semnalelor de tip zgomot. • Sunetul nesonor poate fi asimilat cu un zgomot alb filtrat de către • tractul vocal. • Strucura spectrală are caracteristici tipice de zgomot.

1.4. Modelarea producerii vorbirii • tractul vocal înlănţuire (concatenare) de tuburi sonore de • lungimi şi secţiuni diferite (între glotă şi cavitatea bucală): • lungimea medie  17 cm (la bărbaţi) • secţiunea maximă  20 cm2 • cavitatea nazală (cuprinsă între vălul palatin şi nări): • lungime  12 cm • secţiune constantă • pentru sunetele sonore, sursa este un tren periodic de impulsuri • (reproduce creşterea rapidă a presiunii aerului, urmată de o cădere mai lentă). • modelat prin răspunsul unui filtru trece-jos (FTJ) de ordinul 2 • şi frecvenţă de tăiere  100 Hz.

e[n] y[n] G(z) Modelarea sursei pentru sunetele sonore: • pentru sunetele nesonore, sursa este un zgomot alb • de varianţă unitară.

tractul vocal succesiune de tuburi acustice elementare.  cascadă de rezonatori, cu transmitanţa globală: • fiecare rezonator elementar (de ordinul 2) are o caracteristică • de tip trece bandă şi simulează producerea unui anumit formant. • deschiderea buzelor are o caracteristică de selectivitate de tip • trece-sus ce poate fi modelată prin transmitanţa:

dacă se consideră : • funcţia de transfer globală a tractului vocal (considerată între • excitaţia idealizată şi semnalul emis):  model numai cu poli sau autoregresiv (AR - Auto-Regressive )

1. Simplificarea este oarecum forţată şi ar fi posibilă numai pentru fonemele sonore • o variantă mai corectă: • cavităţile bucală şi nazală sunt cuplate în paralel: Observaţii: 2. Fonemele nazale nu pot fi produse cu modelul AR  model ARMA (Auto-Regressive Moving Average)

Fiecare limbă are propriile foneme • limbile etimologice - valoarea fonetică diferă de transcrierea literală • limbile fonetice - valoarea fonetică este apropiată de transcrierea literală • 1.5. Caracteristici fonetice • Mesajul vocal este compus din sunete distincte, denumite foneme. • Fonem = cea mai mică unitate sonoră prezentă în vorbire. • Pentru redarea grafică a valorii fonetice a literelor, grupurilor • de litere şi cuvintelor se foloseşte “Alfabetul fonetic internaţional”. • Producerea unui fonem dat lasă loc unei anumite variabilităţi. • pe plan acustic; variaţiile fonemului se numesc alofoni. • Pentru fiecare limbă fonemele sunt împărţite în clase şi subclase. • Fiecare clasă este legată de modul de articulare a aparatului fonator.

Hz , c = viteza sunetului = 340 m/s. Ex: Hz Hz • Dacă s-ar considera tractul vocal ca un singur tub acustic cu • lungimea l (metri), rezonanţele acestuia (frecvenţele formanţilor) ar fi: F1 = 500 Hz, F2 = 1500 Hz, F3 = 2500 Hz  formanţii vocalei neutre e mut din limba franceză (foarte apropiaţi de cei ai vocalei ă din limba română) - configuraţia tractului la emisia acestei vocale este foarte apropiată de cea observată în perioadele de linişte, tractul fiind în repaos.

Dacă s-ar considera tractul vocal la producerea fonemelor • corespunzătoare vocalelor ca fiind format din două secţiuni • (două tuburi acustice în cascadă) cu lungimile l1, l2 şi ariile A1, A2: • Plajele primilor 3 formanţi pentru câteva dintre vocalele limbii române • (mărimile barate semnifică valorile medii statistice ale formanţilor):

F1 [Hz] 800 a 600 ε 400 o 200 u y i 0 1000 2000 3000 F2 [Hz] • Reprezentarea unor vocale ale limbii franceze în planul formanţilor F1, F2:

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL