1 / 90

D  więk w multimediach

D  więk w multimediach. Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl. Wykład 7. Jak stany emocjonalne znajdują swoje odbicie w mowie ?. Interpretacja aktorska. happy sad angry interested. bo red. Funkcje emocjonalne cech prozodycznych.

fynn
Download Presentation

D  więk w multimediach

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Wykład 7

  2. Jak stany emocjonalne znajdują swoje odbicie w mowie ?

  3. Interpretacja aktorska happy sad angry interested bored

  4. Funkcje emocjonalne cech prozodycznych Słuchacz na ogół kontroluje w wypowiedzi swój stan emocjonalny. W jego wyrażeniu posługuje się przede wszystkim tempem mówienia, głośnością, wprowadzaniem dodatkowych pauz, przedłużaniem niektórych dźwięków, a także modulowaniem melodii. W wypowiedziach nacechowanych emocjonalnie wahania melodii są znacznie większe, niż w wypowiedziach o charakterze neutralnym. Neutralne – 3-4 tony, z dużym ładunkiem emocjonalnym - > 1 oktawy.

  5. Przykład opozycji szczęśliwy – smutny w konturze melodycznym

  6. Przykład opozycji szczęśliwy – gniewny w konturze melodycznym

  7. Przykład z dialogu typu HMIHY – How may I help you ? VeryFrustrated Somewhat Frustrated

  8. Trudności w określaniu emocji Nadanie wypowiedzi określonego typu emocji jest zadaniem bardzo złożonym. Osoby określające typ wypowiedzi pod względem emocji rzadko są zgodne w swych ocenach, z wyjątkiem krańcowych, lub wyraźnie kontrastowych typów emocji Słuchacze w swojej ocenie głównie opierają się na cechach prozodycznych, zwłaszcza na iloczasach i stylizowanym przebiegu F0.

  9. Interkorelacje między emocjami (p < 0.001)

  10. Cechy emocji w sygnale mowy • Prozodia nie uwzględnia jakości głosu, która może również nieść informację o stanie emocjonalnym osoby mówiącej (chrypka, krzyk, szept itp.) czy stylu mówienia (hyperartykulacja, wstawianie wydłużonych pauz…) • Wydaje się, że cechy akustyczne emocji mogą być specyficzne dla języka • Trudności w jednoznacznym określaniu emocji w sygnale mowy – często niesie równolegle szereg emocji jednocześnie, o podobnym charakterze

  11. Emocje w płaszczyźnie subiektywnej

  12. Emocje kontrastowe w płaszczyźnie akustycznej • Strach/złość • zwiększona prędkość i głośność wypowiedzi • podwyższone F0 • zwiększony zakres F0 • zaburzony rytm mowy • dokładniejsza artykulacja • zwiększona energia w zakresie wyższych częstotliwości • Smutek/odprężenie • zmniejszona prędkość i głośność wypowiedzi • obniżone F0 • zmniejszony zakres F0 • wyrównany rytm mowy, płynna mowa • niedokładna artykulacja • obniżona energia w zakresie wyższych częstotliwości

  13. Miary akustyczne emocji F0: zakres zmian, wartość średnia, nachylenie konturu (w górę/w dół), kształt konturu na sylabach akcentowanych Struktura harmoniczna sygnału: udział szumów przydechowych, laryngalizacja (zwężone impulsy krtaniowe, duża zmienność okresu tonu krtaniowego) Jasność brzmienia: stosunek energii w górnym zakresie częstotliwości do energii w dolnym zakresie Głośność: zakres zmian, wartość średnia, kontur, plozji Iloczasy: pauz, wyrazów, samogłoska/spółgłoska,

  14. Wpływ emocji na głos i mowę

  15. Cechy mowy emocjonalnej

  16. Udział cech mowy w detekcji stanu emocjonalnego - radość Dla języka niemieckiego F0śred :+50% Zakres zmian F0 :+100% Tempo : +30% Jakość głosu = normalny lub napięty, wskaźnik rozchylenia warg F1/F2:+10%

  17. Cechy istotne w detekcji stanu emocjonalnego – złość Dla języka BE F0śred :+10 Hz Zakres zmian F0 : 9 półtonów Zmiana tempa mowy: +30 słów/min Głośność: +6 dB Jakość głosu: laryngalizacja (+78%) Inne: wzrost F0 na akcentowanych sylabach zależnie od stopnia emocji - 10,20 i 40% (podkreślona)

  18. Cechy istotne w detekcji stanu emocjonalnego – smutek Wg skali oceny subiektywnej – język AE F0śred : „0” linia odniesienia - „-1”, końcowe obniżenie, co najmniej „-5” Zakres zmian F0 : „-1 -5” Zmiana tempa mowy : „-10”, pauzy niezbyt długie „+5”, wahania (pauzy) „+10” Głośność: „-5” Jakość głosu: przydechowy „+10”, jasność „-9” Inne: podniesienie częstotliwości na sylabie akcentowanej „+1”, dokładność artykulacji „-5”

  19. Cechy istotne w detekcji stanu emocjonalnego – zdziwienie Wg skali oceny subiektywnej – język AE F0śred : „0” linia odniesienia - „-8” Zakres zmian F0 : „+8”, skokowe zmiany konturu melodycznego Zmiana tempa mowy : „+4”, pauzy wydłużone „-510” Głośność: „+5” Jakość głosu: jasność „-3”

  20. Ranking cech akustycznych emocji SFFS- Sekwencyjna selekcja podzbioru cech

  21. Synteza mowy emocjonalnej http://emosamples.syntheticspeech.de/#big4

  22. Mechanizm percepcji dźwięków

  23. Układ akustycznyodbiornik - ośrodek - źródło

  24. Narząd słuchu W systemie percepcji dźwięków można wyróżnić 2 zasadnicze – układ peryferyjny słuchu i układ nerwowy tego narządu poprzez który dokonywane jest przetwarzanie bodźców na wyższych piętrach układu nerwowego (w mózgu). W narządzie słuchu dokonywane jest przetwarzanie zmian ciśnienia akustycznego na rozkład drgań na błonie podstawnej, który jest przekształcany na odpowiednie serie impulsów pobudzających nerw słuchowy. Informacje o odbieranych sygnałach docierających do narządu słuch są ekstrahowane na różnych poziomach układu nerwowego.

  25. Anatomia narządu słuchu

  26. Zasadnicze elementy narządu słuchu

  27. Schemat funkcjonalny organu słuchu

  28. Charakterystyka częstotliwościowa ucha zewnętrznego Charakterystyka małżowiny – kąt 450

  29. Ucho środkowe (przekrój) 1 – młoteczek 2 – kowadełko 3 – strzemiączko 4 – błona bębenkowa 5 – okienko okrągłe 6 – trąbka Eustachiusza (łączy z częścią gardłowo-nosową)

  30. Ucho środkowe (od wewnątrz) 1 – młoteczek, 2 – jego ścięgno 3 – kowadełko, 4 – jego ścięgno 6 – stopa strzemiączka, 5 – mięsień strzemiączka 7 – błona bębenkowa Układ kosteczek słuchowych (1,3,6) jest układem mechanicznym dopasowującym drgania w powietrzu do drgań w płynie którym jest wypełnione ucho wewnętrzne. Bez tego układu 98% energii akustycznej uległoby odbiciu.

  31. Funkcje kosteczek słuchowych • swoistego rodzaju układ przekładni mechanicznej dopasowujący drgania w powietrzu do drgań w cieczy. Zamienia duży ruch tłoka o dużej powierzchni (błona bębenkowa) na mały ruch tłoka o małej powierzchni (podstawa strzemiączka w okienku owalnym). Wzmocnienie siły wynosi 27 razy. Transmisja dźwięków jest najskuteczniejsza w przedziale częstotliwości 500-4000 Hz. • układ zabezpieczający – powyżej 90 dB(<1-2 kHz), następuje wzrost napięcia mięśni usztywniających układ kosteczek, w wyniku czego następuje ograniczenie przepływu energii akustycznej (odruch strzemiączkowy). Odruch ten jest zbyt wolny by chronić ucho przed hałasem impulsowym, np. wystrzał z broni palnej, gwałtowne pęknięcie ABS.

  32. Jak działa ucho środkowe ? Niska częstotliwość fali docierającej do ucha Wysoka częstotliwość fali docierającej do ucha Strzemiączko jest tłokiem umieszczonym w ścianie kostnej ucha wewnętrznego (w okienku owalnym). Tłok pobudza do drgań nieściśliwą ciecz wypełniającą przestrzenie ucha wewnętrznego.

  33. Praca układu kosteczek ucha środkowego

  34. Wzmocnienie w uchu środkowym Występują tu dwa efekty – efekt wzmocnienia tłokowego (S1 /S2 ) ≈ 20 . S1 = 0.6 cm2 Efekt dźwigni (kosteczki) - d1/d2=1.3 Łączne wzmocnienie = 26 (28 dB)

  35. Charakterystyka transmitancji ucha środkowego

  36. Funkcje transmitancji ucha zewnętrznego i środkowego Zewnętrzny przewód słuchowy (o długości 2-3 cm, średnica 1 cm) ma skomplikowaną geometrię, co powoduje, że w jego charakterystyce transmitancji występuje szereg rezonansów (ok. 6) w zakresie od 3 do 12 kHz. Małżowina uszna wspomaga kierunkowe słyszenie dźwięków. Funkcja transmitancji ucha środkowego ma jeden dominujący rezonans w pobliżu 1 kHz. Razem, obie części narządu słuchu kształtują częstotliwościową charakterystykę czułości słuchu z szerokim maksimum położonym w pobliżu 3 kHz.

  37. Porównanie charakterystyki czułości słuchu z łączną charakterystyką ucha zewnętrznego i środkowego Ucho wewnętrzne działa jak swoistego rodzaju detektor poziomu o stałym poziomie detekcji

  38. Budowa ślimaka 5 mm 1 – kanał ślimakowy, 2 – schody przedsionka 3 – schody bębenka, 4 – zwój nerwowy 5 – nerw słuchowy Ślimak płodu (5 mies) – 2,5 zwojów o – okienko owalne, r – okienko okrągłe (struktura kostna usunięta)

  39. The organ of Corti Basilar membrane: it moves according to the pressure wave induced by the movement of the eardrum on the oval window Auditory nerve axons VIII cranial nerve

  40. Hair cells Hair cells have stereocilia or “hairs” at their top. Their height increases progressively along the cell. The longest is called “kinocilium” Two groups of hair cells: 1 row of Inner Hair Cells (IHC)and 3 rows of Outer Hair Cells (OHC) inner outer IHC connect to 90-95% of afferent auditory fibers OHC are mostly efferent: top-down information modulates their response

  41. Dynamics of hair cells 2. Hair cell movement: increasing tension opens the ionic channels in the hair cells. An ionic exchange happens 1. Movement of basilar membrane 3. Receptor potential. Depolarization because of the entry of Potassium ions (K+) and subsequent entry of Calcium ions (Ca++) 4. Synaptic vesicles release a neurotransmitter (glutamate), triggering the nervous impulse

  42. Pobudzanie ślimaka Długość membrany podstawnej – ~35mm

  43. Drgania membrany podstawnej Przebieg sinusoidalny niskiej częstotliwości Przebieg sinusoidalny o wysokiej częstotliwości Tu membrana drga tylko do określonego miejsca Membrana tu drga niemal na całej swej długości

  44. Rozkład drgań na membranie podstawnej – 100 Hz

  45. Rozkład drgań na membranie podstawnej – 400 Hz

  46. Rozkład drgań na membranie podstawnej – 1200 Hz

  47. Rozkład drgań na membranie podstawnej – 4800 Hz

More Related