PROSODINS MEKANIK talande maskiner och maskinellt tal

PROSODINS MEKANIKtalande maskiner och maskinellt tal Staffan Larsson April 2003 ”Mitt Hjärtas Melodi”

Översikt • Talande maskiner • Talsyntes • Källa-filter-modellen • Formantsyntes • Linjär prediktion • Formantsyntes och sång • Emotionell prosodi i formantsyntes • Maskinellt tal • Mekaniska strukturer • Åke Hodell: General Bussig, Igevär • Steve Reich: Different Trains • Charles Dodge: Speech Songs • Med mera

Grunder • Övertoner (harmoniska) • Ett harmoniskt ljud med grundfrekvens F har övertoner med frekvens 2F, 3F, … • Filter • Ändrar amplituden hos övertoner • Resonansfilter/bandpassfilter: förstärker övertoner kring en viss frekvens • Sampling • Diskretisering i tid; indelning i ”frames” • Kvantisering • Diskretisering av varje tidsutsnitt

Talande maskiner

Text till tal En abstrakt lingvistisk representation av en text genomgår ett antal transformationer som resulterar i en akustisk vågform

Talsyntes • Källa-filter-modellen • F0 modellerar glottis; en övertonsrik grundton • Filtret modellerar munhålan F0 PITCH-PULSE GENERATOR AMP RESONATION SYSTEM (FILTER) SPEECH NOISE GENERATOR

Talsyntes forts. • Filtermodeller • Formantsyntes • Linear Predictive Coding (LPC) • Syntesmetoder • Regelbaserad: baserat på teori implementerad i regelsystem • Analysbaserad: baserad på inspelat tal (vanligtvis samplat) • Resultatet av analysen är en uppsättning dynamiska parametrar

Formantsyntes • Akustisk modell • Filtret analyseras som ett antal formanter, F1-F4 • Normalt varieras bara F1 och F2; resten är statiska • Formanterna modelleras av bandpassfilter med variabel frekvens • Parallell- eller seriekopplade • Vokaler definieras av värden på formantfrekvenserna • Vissa konsonanter kan modelleras som lokuspunkter • Andra konsonanter modelleras som brus, (”s”, ”f”)

Tidiga exempel på talsyntes • Bell labs (1950) • forskning om analys och syntes av tal i syfte att minimera mängden information som skickas t ex i en telefonledning • Vocoder • Analysera tal som akustiska parametrar • F0/noise • 10 bandpassfilter med variabel amplitud • Använd dessa parametrar för att driva syntes som approximerar originalet • Voder * • Manuell kontroll av parametrar • Pattern Playback * • Parametrar styrs av spektrogramläsare

OVE I • Oratis Verbis Electris • Gunnar Fant • Svensk vokalformantsyntes från 50-talet • utvecklades främst i pedagogiskt syfte, men kan möjligen även ses som ett mellanting mellan musikinstrument och talmaskin. • Fyra seriekopplade bandpassfilter • F0, F1 och F2 styrs manuellt • Demo * • Analog • Digital

Ove II

Linjär prediktion • Artikulatorisk modell • Filtret modellerar munhålan, modellerad som en tub med ett antal cylindriska sektioner av olika längd och diameter • Filter: ett ”all-pole” filter • Predicera nästa sampel baserat på viktad summa av föregående samples • Mer realistisk återgivning • MEN svårare att kontrollera parametrar, t ex F0; filtret är instabilt

Regelbaserad vs. Analysbaserad syntes • Regelbaserad: regler för övergångar mellan fonem • Formant: regler för formantövergångar, lokusteori (OVE II) • LPC: regelbaserad konkatenering (Klatt, Arkiv B&C)* • Analysbaserad: sampling och analys av mänskligt tal • Formant: formantdetektion • LPC: den metod som numera är vanligast • Manuell syntes • Ove, VODER

Flera talsyntessystem • DECtalk (1980-) * • Baserad på KlattTalk (formantsyntes) • Formanter, lokusregler • Flera olika röster (Klatt, arkiv D) • Speak and Spell (1980) • Linjär prediktion

Emotionell prosodi i formantsystes • Formantsyntes har även använts i forskning på prosodins roll i uttryckandet av emotioner • Janet Cahn • The Generation of Affect in Synthesized Speech • Affect Editor (program) • Grundantagandern • Affektinformation är i stort sett oberoende av lexikal information • Emotioners effekt på talsignalen kan kvantifieras

Tidigare forskning… • …om akustiska korrelat till emotioner • Sporadiskt sedan 40-talet • Primära parametrar: F0 och rytm • Dessa parametrar kan kontrolleras i syntes • Fysiologiska förklaringar (Williams & Stevens 1981) • Sympatiska(?) nervsystemet aktiveras (rädsla, ilska, glädje) > högre blodtryck och puls > högljutt, snabbt tal med hög frekvensenergi • Paraympatiska nervsystemet aktiveras (uttråkadhet, sorg) > lägre blodtryck och puls > långsamt tal med låg tonhöjd och frekvensenergi

Alternativa representationer • Generativ modell • Utgår från talarens mentala tillstånd • Akustisk modell • Utgår från den akustiska signalen som den uppfattas av åhöraren • En uppsättning parametrar som motsvarar talsignalens emotionella korrelat • Den förra är teoretiskt mer intressant, men den andra är enklare • Lättare att kvantifiera och utvärdera • Vi vet mer om akustiska än mentala korrelat

Affektparametrar • Fyra grupper • Tonhöjd (pitch): egenskaper hosF0 • Timing: rytm och talhastighet • Röstkvalitet • Artikulation • Tonhöjd och timing är även egenskaper hos ord och fraser • Ej absolut indelning • Parametrar har värden mellan –10 och 10; 0 är neutral

Tonhöjdsparametrar • Accent shape: the rate of F0 change for any pich accent • Pitch accent: distinctive pitch applied to the lexically stressed syllable of a word such that the word as a who is percieved as reciveving sentential stress • Average pitch: average F0 relative to speaker’s normal pitch • Countour slope: overall trend of pitch range (expanding, contracting or level) • Final lowering: terminal pitch contour • Pitch range: range of F0 variation • Reference line

Timingparametrar • Fluent pauses: frequency of pausing between syntactic or semantic units • Hesitation pauses: frequency of pausing within syntactic or semantic units • Speech rate • Stress frequency: ratio of stressed (pitch accented) to stressable (potentially pitch accented) words

Röstkvalitetsparametrar • Breathiness: amount of frication noises co-present with nonfricatives • Brilliance: ratio of low to high frequency energy • Laryngearization: narrow and irregular subglottal pulse; ”creakiness” • Loudness: percieved loudness Artikulationsparametrar • Precision: degree of slurring or enunciation

Affect Editor • Akustisk beskrivning av emotionellt tal > syntetiskt expressivt tal • Syntes: DECtalk3 • Stor grad av kontroll över prosodi och röstkvalitet • Mappning • från akustiska parametrar + text (annoterad med intonation och ordklassinformation) • till syntesens inställningar + fonologisk representation >ghostview

Exempel • http://xenia.media.mit.edu/~cahn/emot-speech.html • Stimuli för experiment

Formantsyntes av sång (Dodge) • Kräver mer komplex modell av munhålan (mer komplext filter) • Interaktion mellan glottis och munhåla • ”Sångformanten” • Lägre frekvens på F4 och F5 än i tal • F4 och F5 ligger nära varandra (2500-3500 Hz)

Sångsyntes: tidiga exempel • Bell labs (1961) • 1961: Max Mathews (with the assistance of a number of technicians at Bell Labs) made a computer sing "Bicycle Built for Two." • DAVO (1958) * • Georg Rosen, MIT • Charles Dodge (mer senare)

Mekaniskt tal

Mekaniska strukturer (Manovich) • Mekanisering av media: diskretisering • Sampling • Kvantisering • Möjliggör mekaniska operationer • Upprepning, loopning • Utsträckning i tid • Gradvis modifiering / modulering • Överlagring (”compositing”) • Har även använts inom ljudkonst och musik

”Cross-synthesis” (Dodge) • Analys – manipulation – syntes • Tal samplas och analyseras som parametrar som kodas digitalt (vanligtvis LPC) • Valda parametrar manipuleras • Återsyntes med manipulerade parametrar • Vanliga operationer • Kopiera parametrar från en sekvens till en annan; skapa repetitioner • Interpolera värdet av en given parameter för en sekvens (värde 1 -> värde 2) • Förläng en sekvens i tid • Ändra värdet på en parameter i en sekvens till ett fixt värde • Öka värdet på en parameter i en sekvens till ett fixt värde

Ljudkonst och tal • ”Konkret poesi” • Utgångspunkten är talets fysiska egenskaper, snarare än innehållet • I Sverige: Fylkingen (Sten Hansson, Ilmar Laaban, Åke Hodell mfl) • EMS, Stockholm • 1960-tal • En av världens mest avancerade ljudstudios (ryms numera på en billig PC) • Ej digital sampling, men analog teknik med linkande möjligheter; dock mycket arbetsamt

Åke Hodell • General Bussig * • Upprepning, gradvis modifiering • Noggrant modulerad prosodi, närmar sig musik • Igevär * • Utsträckning i det absurda • Från språkljudet abstraheras det språkliga bort, kvar blir ett ljud som balanserar på gränsen mellan mänskligt och mekaniskt

Steve Reich • Different Trains * • Använder talets prosodiska melodi som grundmaterial för musikaliska figurer • Sampling, överlagring, upprepning • Melodi i tal och musik • Tal: glidande toner (glissando) • Musik: diskreta toner • Transformation av F0 till melodi innebär en ytterligare (manuell) ”sampling”, d v s diskretisering i tid och tonhöjd

Charles Dodge • Sysslade tidigare med orkester- och kammarmusik • Speech Songs (1972) • ”A man sitting in a cafe” • Detta är en dikt inläst av Dodge som analyserats och återsyntetiserats • Modifierad F0, repetition, m.m. • Any similarity is purely coincidental • ”cross synthesis” av inspelning av Caruso

Andra artister som använder talsyntes • Nämnda i Computer Music: • Paul Lansky • Frances White • Judy Klein • www.epitonic.com • 386DX • Gamers In Exile • Samt ett flertal som använder vocoder

Sammanfattning • Tal kan mekaniseras • samplas, analyseras, lagras, manipuleras och syntetiseras • Exempel på detta är • Talsyntes • Formantsyntes • Linear Predictive Coding • Sångsyntes • Språkbaserad ljudkonst och musik • Tal, även syntetiskt, bär emotioner • Vare sig man vill eller ej • Kan i viss mån kontrolleras • Kan utnyttjas i konstnärliga syften • Mekaniskt tal är verkligen märkligt/konstigt/knäppt! • Varför?

A: the consonant /d/ before a series of vowels having the same F1. The second formant transition appears to originate from an invisible locus at 1800 Hz, after Delattre et al. (1955). • B: If the second formant onset frequency (hub) is fixed at 1800 Hz, left panel, several different consonants are heard.

Text till tal: En abstrakt lingvistisk representation av en text genomgår ett antal transformationer som resulterar i en akustisk vågform

Genusperspektiv? • Talsyntes oftast manliga röster • Svårare att syntetisera kvinnliga röster? • Svårare att analysera pga färre övertoner • Att minska storleken på den simulerade munhålan samt höja F0 fungerar inte • ”Mannen är normen” • De flesta analyser av tal utgår från manliga talare • Inte konstigt att denna modell inte omedelbart fungerar för att syntetisera kvinnligt tal

PROSODINS MEKANIK talande maskiner och maskinellt tal