900 likes | 1.13k Views
D więk w multimediach. Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl. Wykład 7. Jak stany emocjonalne znajdują swoje odbicie w mowie ?. Interpretacja aktorska. happy sad angry interested. bo red. Funkcje emocjonalne cech prozodycznych.
E N D
Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Wykład 7
Interpretacja aktorska happy sad angry interested bored
Funkcje emocjonalne cech prozodycznych Słuchacz na ogół kontroluje w wypowiedzi swój stan emocjonalny. W jego wyrażeniu posługuje się przede wszystkim tempem mówienia, głośnością, wprowadzaniem dodatkowych pauz, przedłużaniem niektórych dźwięków, a także modulowaniem melodii. W wypowiedziach nacechowanych emocjonalnie wahania melodii są znacznie większe, niż w wypowiedziach o charakterze neutralnym. Neutralne – 3-4 tony, z dużym ładunkiem emocjonalnym - > 1 oktawy.
Przykład opozycji szczęśliwy – smutny w konturze melodycznym
Przykład opozycji szczęśliwy – gniewny w konturze melodycznym
Przykład z dialogu typu HMIHY – How may I help you ? VeryFrustrated Somewhat Frustrated
Trudności w określaniu emocji Nadanie wypowiedzi określonego typu emocji jest zadaniem bardzo złożonym. Osoby określające typ wypowiedzi pod względem emocji rzadko są zgodne w swych ocenach, z wyjątkiem krańcowych, lub wyraźnie kontrastowych typów emocji Słuchacze w swojej ocenie głównie opierają się na cechach prozodycznych, zwłaszcza na iloczasach i stylizowanym przebiegu F0.
Interkorelacje między emocjami (p < 0.001)
Cechy emocji w sygnale mowy • Prozodia nie uwzględnia jakości głosu, która może również nieść informację o stanie emocjonalnym osoby mówiącej (chrypka, krzyk, szept itp.) czy stylu mówienia (hyperartykulacja, wstawianie wydłużonych pauz…) • Wydaje się, że cechy akustyczne emocji mogą być specyficzne dla języka • Trudności w jednoznacznym określaniu emocji w sygnale mowy – często niesie równolegle szereg emocji jednocześnie, o podobnym charakterze
Emocje kontrastowe w płaszczyźnie akustycznej • Strach/złość • zwiększona prędkość i głośność wypowiedzi • podwyższone F0 • zwiększony zakres F0 • zaburzony rytm mowy • dokładniejsza artykulacja • zwiększona energia w zakresie wyższych częstotliwości • Smutek/odprężenie • zmniejszona prędkość i głośność wypowiedzi • obniżone F0 • zmniejszony zakres F0 • wyrównany rytm mowy, płynna mowa • niedokładna artykulacja • obniżona energia w zakresie wyższych częstotliwości
Miary akustyczne emocji F0: zakres zmian, wartość średnia, nachylenie konturu (w górę/w dół), kształt konturu na sylabach akcentowanych Struktura harmoniczna sygnału: udział szumów przydechowych, laryngalizacja (zwężone impulsy krtaniowe, duża zmienność okresu tonu krtaniowego) Jasność brzmienia: stosunek energii w górnym zakresie częstotliwości do energii w dolnym zakresie Głośność: zakres zmian, wartość średnia, kontur, plozji Iloczasy: pauz, wyrazów, samogłoska/spółgłoska,
Udział cech mowy w detekcji stanu emocjonalnego - radość Dla języka niemieckiego F0śred :+50% Zakres zmian F0 :+100% Tempo : +30% Jakość głosu = normalny lub napięty, wskaźnik rozchylenia warg F1/F2:+10%
Cechy istotne w detekcji stanu emocjonalnego – złość Dla języka BE F0śred :+10 Hz Zakres zmian F0 : 9 półtonów Zmiana tempa mowy: +30 słów/min Głośność: +6 dB Jakość głosu: laryngalizacja (+78%) Inne: wzrost F0 na akcentowanych sylabach zależnie od stopnia emocji - 10,20 i 40% (podkreślona)
Cechy istotne w detekcji stanu emocjonalnego – smutek Wg skali oceny subiektywnej – język AE F0śred : „0” linia odniesienia - „-1”, końcowe obniżenie, co najmniej „-5” Zakres zmian F0 : „-1 -5” Zmiana tempa mowy : „-10”, pauzy niezbyt długie „+5”, wahania (pauzy) „+10” Głośność: „-5” Jakość głosu: przydechowy „+10”, jasność „-9” Inne: podniesienie częstotliwości na sylabie akcentowanej „+1”, dokładność artykulacji „-5”
Cechy istotne w detekcji stanu emocjonalnego – zdziwienie Wg skali oceny subiektywnej – język AE F0śred : „0” linia odniesienia - „-8” Zakres zmian F0 : „+8”, skokowe zmiany konturu melodycznego Zmiana tempa mowy : „+4”, pauzy wydłużone „-510” Głośność: „+5” Jakość głosu: jasność „-3”
Ranking cech akustycznych emocji SFFS- Sekwencyjna selekcja podzbioru cech
Synteza mowy emocjonalnej http://emosamples.syntheticspeech.de/#big4
Narząd słuchu W systemie percepcji dźwięków można wyróżnić 2 zasadnicze – układ peryferyjny słuchu i układ nerwowy tego narządu poprzez który dokonywane jest przetwarzanie bodźców na wyższych piętrach układu nerwowego (w mózgu). W narządzie słuchu dokonywane jest przetwarzanie zmian ciśnienia akustycznego na rozkład drgań na błonie podstawnej, który jest przekształcany na odpowiednie serie impulsów pobudzających nerw słuchowy. Informacje o odbieranych sygnałach docierających do narządu słuch są ekstrahowane na różnych poziomach układu nerwowego.
Charakterystyka częstotliwościowa ucha zewnętrznego Charakterystyka małżowiny – kąt 450
Ucho środkowe (przekrój) 1 – młoteczek 2 – kowadełko 3 – strzemiączko 4 – błona bębenkowa 5 – okienko okrągłe 6 – trąbka Eustachiusza (łączy z częścią gardłowo-nosową)
Ucho środkowe (od wewnątrz) 1 – młoteczek, 2 – jego ścięgno 3 – kowadełko, 4 – jego ścięgno 6 – stopa strzemiączka, 5 – mięsień strzemiączka 7 – błona bębenkowa Układ kosteczek słuchowych (1,3,6) jest układem mechanicznym dopasowującym drgania w powietrzu do drgań w płynie którym jest wypełnione ucho wewnętrzne. Bez tego układu 98% energii akustycznej uległoby odbiciu.
Funkcje kosteczek słuchowych • swoistego rodzaju układ przekładni mechanicznej dopasowujący drgania w powietrzu do drgań w cieczy. Zamienia duży ruch tłoka o dużej powierzchni (błona bębenkowa) na mały ruch tłoka o małej powierzchni (podstawa strzemiączka w okienku owalnym). Wzmocnienie siły wynosi 27 razy. Transmisja dźwięków jest najskuteczniejsza w przedziale częstotliwości 500-4000 Hz. • układ zabezpieczający – powyżej 90 dB(<1-2 kHz), następuje wzrost napięcia mięśni usztywniających układ kosteczek, w wyniku czego następuje ograniczenie przepływu energii akustycznej (odruch strzemiączkowy). Odruch ten jest zbyt wolny by chronić ucho przed hałasem impulsowym, np. wystrzał z broni palnej, gwałtowne pęknięcie ABS.
Jak działa ucho środkowe ? Niska częstotliwość fali docierającej do ucha Wysoka częstotliwość fali docierającej do ucha Strzemiączko jest tłokiem umieszczonym w ścianie kostnej ucha wewnętrznego (w okienku owalnym). Tłok pobudza do drgań nieściśliwą ciecz wypełniającą przestrzenie ucha wewnętrznego.
Wzmocnienie w uchu środkowym Występują tu dwa efekty – efekt wzmocnienia tłokowego (S1 /S2 ) ≈ 20 . S1 = 0.6 cm2 Efekt dźwigni (kosteczki) - d1/d2=1.3 Łączne wzmocnienie = 26 (28 dB)
Funkcje transmitancji ucha zewnętrznego i środkowego Zewnętrzny przewód słuchowy (o długości 2-3 cm, średnica 1 cm) ma skomplikowaną geometrię, co powoduje, że w jego charakterystyce transmitancji występuje szereg rezonansów (ok. 6) w zakresie od 3 do 12 kHz. Małżowina uszna wspomaga kierunkowe słyszenie dźwięków. Funkcja transmitancji ucha środkowego ma jeden dominujący rezonans w pobliżu 1 kHz. Razem, obie części narządu słuchu kształtują częstotliwościową charakterystykę czułości słuchu z szerokim maksimum położonym w pobliżu 3 kHz.
Porównanie charakterystyki czułości słuchu z łączną charakterystyką ucha zewnętrznego i środkowego Ucho wewnętrzne działa jak swoistego rodzaju detektor poziomu o stałym poziomie detekcji
Budowa ślimaka 5 mm 1 – kanał ślimakowy, 2 – schody przedsionka 3 – schody bębenka, 4 – zwój nerwowy 5 – nerw słuchowy Ślimak płodu (5 mies) – 2,5 zwojów o – okienko owalne, r – okienko okrągłe (struktura kostna usunięta)
The organ of Corti Basilar membrane: it moves according to the pressure wave induced by the movement of the eardrum on the oval window Auditory nerve axons VIII cranial nerve
Hair cells Hair cells have stereocilia or “hairs” at their top. Their height increases progressively along the cell. The longest is called “kinocilium” Two groups of hair cells: 1 row of Inner Hair Cells (IHC)and 3 rows of Outer Hair Cells (OHC) inner outer IHC connect to 90-95% of afferent auditory fibers OHC are mostly efferent: top-down information modulates their response
Dynamics of hair cells 2. Hair cell movement: increasing tension opens the ionic channels in the hair cells. An ionic exchange happens 1. Movement of basilar membrane 3. Receptor potential. Depolarization because of the entry of Potassium ions (K+) and subsequent entry of Calcium ions (Ca++) 4. Synaptic vesicles release a neurotransmitter (glutamate), triggering the nervous impulse
Pobudzanie ślimaka Długość membrany podstawnej – ~35mm
Drgania membrany podstawnej Przebieg sinusoidalny niskiej częstotliwości Przebieg sinusoidalny o wysokiej częstotliwości Tu membrana drga tylko do określonego miejsca Membrana tu drga niemal na całej swej długości