Vokalwahrnehmung Konsonantenwahrnehmung

VokalwahrnehmungKonsonantenwahrnehmung Tutorium zur Einführung in die Phonetik II angelikaberwein@yahoo.de

Vokalwahrnehmung Auditive Sprachwahrnehmung • Vokalwahrnehmung- Konsonantenwahrnehmung- Prosodiewahrnehmung Acoustic cues - notwendige akustische Eigenschaft eines Stimulus zu seiner Identifizierung • Wie schaffen wir es, Vokale zu identifizieren trotz • sprecherabhängiger Variabilität (Variabilität bei Formanten) • kontextabhängiger Variabilität • Einfluss der umgebenden Segmente ( => Koartikulation) • Einfluss der Dauer des Vokals und der umgebenden Segmente • Einfluss der Formanttransitionen

Peterson & Barney (1952) • verwendeten natürliche Stimuli zur Vokalidentifikation:- heed, hid, head, had, hod, hawed, hood, who’d, hud, heard, je 2x von 76 Personen (männlich+weiblich) gesprochen.- 70 Personen, darunter auch einige der Sprecher, mussten die Stimuli zu den 10 Wörtern zuordnen • Ergebnisse: • a) akustisch - große Überlappung der Formanten der einzelnen Lautklassen, auch nach Aus- sortierung der Stimuli von Frauen und Kindern sowie der falsch erkannten Wörter

Peterson und Barney (1952): teilweise starke Überlappung der Lautklassen auf der Formantkarte

Peterson und Barney (1952): auch nach Entfernung der Stimuli von Frauen und Kindern noch Überlappungen

b) perzeptiv - trotz Überlappungen werden 94 % aller Wörter richtig erkannt - korrekte Urteile sind lautklassenabhängig: hoher Anteil einstimmiger Urteile bei der [i]-Klassifikation, dagegen niedriger Anteil bei [a] * [a] hat mehr artikulatorische Freiheitsgrade * [a] hat mehr akustische Vokalnachbarn) - Sprecher-Hörer-Korrelation: Probanden mit Schwierigkeiten, phonologisch unterschiedliche Vokale verschieden auszusprechen, haben auch perzeptiv Schwierigkeiten beim Auseinanderhalten dieser Vokale => absolute Formantfrequenzen nicht ausreichend für Vokalidentifikation! Klatt (1982) • verwendete synthetische Stimuli zur Vokalidentifikation- Ergebnis: Frequenz der ersten beiden Formanten (F1, F2) beeinflussen die perzipierte Vokalqualität, die anderen Formantkenngrößen (Amplituden- verhältnisse, Bandbreite) haben deutlich weniger Gewicht

Normalisierungstheorien • Normalisierung (Mathematik): Skalierung des Wertebereichs einer Variable auf einen bestimmten Bereich • Vokalnormalisierung: Wie wird derselbe phonetische Vokal trotz sprecher-bedingter Unterschiede wahrgenommen? • intrinsisch: kontextunabhängige Angaben zu vokalintrinsischen Eigenschaften • extrinsisch: Bezugnahme auf ein außerhalb des vokalischen Segmentsliegenden Referenzsystems - Evaluierungskriterien für Normalisierungsmodelle: * Reduktion der Überlappung der perzipierter Vokalklassen im Merkmalsraum * Reduktion der Streuung innerhalb der Vokalkategorien * psychologische Plausibilität Intrinsische Normalisierung • Formant-Ratio-Theorien: relative Angaben zu vokalintrinsischen Eigenschaften (Verhältnisse der akustischen Information von F0, F1, F2 ...)- Versuch, durch Statistik Überlappungen zwischen Formanten zu reduzieren • => Perzeptionsexperimente mit systematisch manipulierten Reizen

Miller (1953) - verwendete synthetisierte 2-Formant-Stimuli- F1 und F2 wurden konstant gehalten- F0 wurde um eine Oktave geändert - Ergebnis: F0 hat entscheidenden Einfluss auf den perzipierten Öffnungsgrad des Vokals: Werden F1 und F2 konstant gehalten, wird ein Vokal umso geschlossener wahrgenommen, je höher F0 ist. Das von Miller zur Additiven Synthese seiner Vokalstimuli verwendete Gerät. Es ist in der Lage, 100 Obertöne in einem Amplitudenbereich von 50 dB per Schieberegler zu wählen und dadurch einen spektralen Hüllkurvenverlauf quasi zu “zeichnen”.

Traunmüller (1981) - verwendete synthetisierte 1-Formant-Stimuli- Abstand von F0 und F1 in Bark wurden verändert - Ergebnisse: - wenn der Abstand zwischen F0 und F1 in Bark konstant bleibt, wird auch derperzipierte Öffnungsgrad gleich wahrgenommen - proportionales Verhältnis zwischen Bark-Distanz und Distanz von zwei Wanderwellenmaxima auf der Basilarmembran=> nicht nur absolute Position der Wanderwellenmaxima ist entscheidend für Vokalidentifikation, sondern auch die Abstände der Erregungen, also die räumliche Distanz zwischen zwei Maxima!

Syrdal & Gopal Umrechnung der Formantfrequenzen aus dem Experiment von Peterson & Barney in Bark-Werte und Betrachtung der Distanzen - Ergebnisse: - deutliche Verringerung der Variation innerhalb der Vokalklassen, deutliche Reduzierung der Überlappungen, aber auch keine Eindeutigkeit- 3-Bark-Hypothese: Vokalklassifikation anhand von Formantdifferenzen größer gleich oder kleiner 3 Bark

Extrinsische Normalisierung - Vokalwahrnehmung im Kontext vokalexterner Signaleigenschaften, also Einfluss vorangehender Vokale, Silben, Wörter, Sätze auf Vokalidentifikation Joos (1948) - Wahrnehmung der Vokale eines Sprechers in Bezug auf seine Eckvokale=> kleine Anzahl von einem Sprecher produzierter Vokale genügt dem Hörer, um den sprecherspezifischen Vokalraum perzeptiv abzuschätzen (Ladefoged&Broadbent, 1957) - Einfluss der akustischen Referenz:Vokalidentifizierung nach vorangegangenem Referenzsatz mit variierten Formantfrequenzen- Referenzsatz: „Please say, what this word is.“ - F1- und F2-Register systematisch variiert- natürliche Teststimuli zuzuordnen den Kategorien bit, bet, bat, but- Ergebnis: Vokalidentifizierung abhängig von vorangegangenen Formant- frequenzen (Frequenz des Referenzsatzes)- d.h. derselbe Teststimulus wird bei höherem F1 im Referenzsatz als „bit“ wahrgenommen, bei tieferem F1 als „bet“

Verbrugge (1976) - Präsentation von CVC-Silben in Form von Single-talker- und Mixed-talker- Listen- Ergebnisse:- Vokalidentifizierung besser unter Single-talker-Bedingung=> Sprecheradaption hilfreich bei Lautwahrnehmung (Sprechernormalisierung)- auch schon vorangehende Einzelsilben beeinflussen die Perzeptionsurteile => Sprecheradaption startet sofort- Performanz steigt mit Anzahl der bereits präsentierten Stimuli bis zu einem gewissen Grad an => asymptotisch steigender Verlauf der Sprecheradaption => extrinsische UND intrinsische Normalisierung wichtig! Wenn möglich nehmenHörer Sprache relativ zu einer internen Repräsentation des Sprechers wahr(Experimente: siehe http://www.phonetik.uni-muenchen.de/~reichelu/kurse/perz_fort/folien_pf_1.pdf (S.32)

Formanten Perzeptive Integration - Formanten mit einer Distanz zueinander von weniger als 3–3.5 Bark werden perzeptiv zu einem Formanten integriert (Chistovitch 1985, u.a.)- Effektive Formantfrequenz F’: gewichteter Mittelwert (center of gravity) der beteiligten Formantfrequenzen - bei vorderen Vokalen liegen F1 und F2 weit auseinander: => F2 und F3 werden zu F2‘ integriert- bei hinteren Vokalen liegen F1 und F2 nah zusammen: => F1 und F2 werden zu F1‘ integriert - akustischer Cue für die Wahrnehmung von vorderen Vokalen: F1 und F2‘- akustischer Cue für die Wahrnehmung von hinteren Vokalen: F1‘- F3 kann verwendet werden, um Rückschlüsse auf das Ansatzrohr des Sprechers und damit auf dessen lautspezifische F1- und F2-Positionen zu ziehen

Beispiel:F1=2,6 Bark, Amplitude 7F2=14 Bark, Amplitude 5 F3=15,6 Bark, Amplitude 3 F4=17,4 Bark, Amplitude 2 Beispiel 2:F1=7,1 Bark, Amplitude 5F2=9,7 Bark, Amplitude 4 F3=14,5 Bark, Amplitude 3 Welche Formanten werden integriert? => F2, F3 und F4 liegen weniger als 3 Bark auseinander => F1 und F2 liegen weniger als 3 Bark auseinander F1‘ = 8,25[Bark] - Aufbau von Formanten (Lehiste & Peterson, 1961): Onglide, target, offglide- bei Diphtongen: zwei Targets- bei diphtongisierten Vokalen (z. B. im Englischen „blow“): ein Target mit starkem Offglide

- Variabilität durch Koartikulation (Beeinflussung durch andere Laute)=> in der fließenden Rede werden die targets der Formanten häufig nicht erreicht = target undershoot=> stärkere Variabilität der Lautkategorien => Überlappung der Lautklassen - zudem: Identifikation isolierter Vokale ist schlechter als Identifikation eingebetteter Vokale- entscheidend ist also nicht nur das Erreichen der targets, sondern viel mehr der spektrale und temporale Verlauf der Formanten (dynamic specification) - Strange, Jenkins & Johnson (1983): Untersuchung des Einflusses der Target-, Dauer- und Transitionsinformation=> Targetinformation ist teilweise nicht einmal nötig!

Ergebnis: => Dynamische Information primär relevant!

Akustische Cues der Vokalwahrnehmung Was sind also die akustischen Cues, die uns bei der Vokalwahrnehmung helfen? - vor allem Abstand von F0 und Formantgipfeln auf der Basilarmembran in Bark (statische Cues)- spektraler und temporaler Verlauf der Transition zu benachbarten Konsonanten (dynamische Cues)- Dauerparameter: intrinsische Vokaldauern, Vokal-Konsonant-Länge

Konsonantenwahrnehmung - Konsonant-Vokal-Stimuli erzeugt durch Pattern-Playback-Verfahren Akustische Cues der Konsonantenwahrnehmung 1. Plosive a) Spektrale Eigenschaften • Artikulationsart: Signalpause- Artikulationsort: Burst, Lokus, Transition- Stimmhaftigkeit: voice bar b) Temporale Eigenschaften • VOT (Zeitdifferenz zwischen Verschlusslösung und Stimmtoneinsatz) • Aspiration (fortis/lenis)

2. Frikative a) Spektrale Eigenschaften • Artikulationsart: Aperiodizität, gradueller Anstieg der Friktionsenergie- Artikulationsort: Zusammensetzung des Spektrums, Energieschwerpunkt, Transitionen - Stimmhaftigkeit: voice bar b) Temporale Eigenschaften • stimmhaft: relativ längere Vokaldauer, kürzere Konsonantendauer- stimmlos: relativ kürzere Vokaldauer, längere Konsonantendauer 3. Affrikate(Plosiv + homorganer Frikativ) a) Spektrale Eigenschaften: siehe Plosiv + Frikativ • Artikulationsart: steiler Anstieg der Friktionsenergie b) Temporale Eigenschaften: siehe Plosiv + Frikativ • relativ kürzere Dauer

4. Nasale • Artikulationsart: Antiformanten- Artikulationsort: Transitionen - Stimmhaftigkeit: immer 5. Laterale • Artikulationsart: Formantstruktur, Antiformanten- Artikulationsort: lange und flache Transitionen - Stimmhaftigkeit: immer 6. Approximanten • Artikulationsart: Formanten- Artikulationsort: lange und flache Transitionen in Relation zu ähnlichen Vokalen - Stimmhaftigkeit: immer

Ein paar Stichwörter zur Prosodiewahrnehmung • Definition Prosodie (Akzent, Intonation, zeitliche Strukturierung größerer Einheiten) • Mikroprosodie und Makroprosodie • prosodische Parameter (Prominenz, Intonation, Quantität, Rhythmus) • akustische Parameter (Tonhöhe, Intensität, Dauer) • Akzentuierung: Wortakzent vs. Satzakzent • prosodische Phrasierung • kategoriale Wahrnehmung

Vokalwahrnehmung Konsonantenwahrnehmung

Vokalwahrnehmung Konsonantenwahrnehmung

Presentation Transcript