320 likes | 402 Views
Was sind einige der effektivsten Formen der Stimmverstellung?. LMU München – WiSe 2007/ 08 Hauptseminar: Forensische Phonetik Dozent: Prof. Dr. Jonathan Harrington Referentin: Aysen Demir Datum: 08.01.2008. 1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung.
E N D
Was sind einige der effektivsten Formen der Stimmverstellung? LMU München – WiSe 2007/ 08 Hauptseminar: Forensische Phonetik Dozent: Prof. Dr. Jonathan Harrington Referentin: Aysen Demir Datum: 08.01.2008
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Sprecher und Spektrogramme • 40 erwachsene, männliche Sprecher (Durchschnittsalter: 27,3Jahre) • 2 Sitzungen für Aufnahmen: - Reihe von 4 Sätzen für 1.Sitzung - andere Reihe von 3Sätzen für 2.Sitzung • 9 Schlüsselwörter in diesen Sätzen: it, is, on, you, and, the, I, to, me • 6 verschiedene Arten der Stimmverstellung: 1.normal, 2.alt, 3.heiser, 4.hypernasal, 5.extrem langsam, 6.freie Wahl • Sprachaufnahmen in schalldichtem Raum • Breitband – Spektrogramme (Frequenzbereich 80-8000Hz)
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Aufbau des Experiments • 4 unabhängig arbeitende spektrografische Untersucher (2 Sprachwissenschaftler + 2 Sprachpathologen) erhielten ca. 4 Wochen Training (10-15h/Woche) • Identifikations- Diskriminationsaufgaben • 30 Sprecher willkürlich in Sprechergruppe 1 + 2 aufgeteilt • Ausstattung der Untersucher mit 15bekannten („Referenz-“) Spektrogrammen (unverstellte Schlüsselwörter aus 2.Sitzung) • Repräsentation v.15unbekannten („matching“) Spektrogrammen (verstellte/ unverstellte Schlüsselwörter aus 1.Sitzung) • 7 verschiedene Arten v. „matching tasks“: 1.unverstellt-unverstellt, 2.alt-unverstellt, 3.heiser-unverstellt, 4.hypernasal-unverstellt, 5.extrem langsam-unverstellt, 6.freie Wahl- unverstellt, 7.willkürlich gewählte Verstellung-unverstellt
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Aufbau des Experiments • Nur 11 v.15 unbekannten Spektrogrammen passten zu gegebenen 15 bekannten Spektrogrammen (4 „non-matches“ in jeder Aufgabe des Experiments) • Einschätzung und Bewertung folgender Faktoren: • Entscheidungssicherheit auf 5 Pkt.- Skala (1: „sehr unsicher“, 5: „sehr sicher) • Schwierigkeitsgrad der 7 Aufgabenarten auf 7Pkt.- Skala (1: „nicht sehr schwer“, 7: „sehr schwer“) • Nützlichkeit der 9 Stimulus- Wörter für Identifikation der Sprecher auf 7Pkt.- Skala (1: „nicht sehr nützlich“, 7: „sehr nützlich“)
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Ergebnisse • Aufgaben- und Untersucherunterschiede • Tabelle 1: Durchschnitt korrekter Identifikationen v. jeder Stimmverstellung • Zeigt, dass unverstellte Stimme signifikant höhere, korrekte Prozentzahlen hat als die anderen Verstellungen • Nasale und langsame Sprechweise die am wenigsten effektiven Verstellungen, während freie Wahl am effektivsten Tabelle 1
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Ergebnisse • Aufgaben- und Untersucherunterschiede • Tabelle 2: Durchschnitt korrekter Identifikationen v. jedem Untersucher • AI signifikant besser als die übrigen Untersucher • Anderen drei Untersucher unterscheiden sich nicht bedeutsam voneinander Tabelle 2
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Ergebnisse • Aufgaben- und Untersucherunterschiede • Tabelle 3: Durchschnitt korrekter Identifikationen v. jeder Stimmverstellung mit Entscheidungssicherheit v. 3, 4 und 5 • Ausschluss v. Entscheidungen mit geringer Sicherheitseinschätzung veränderte Wert der gesamten Entscheidungen nicht merklich • Selbe Muster v. Unterschieden wie bei gesamten Entscheidungen der Untersucher • Unverstellte Stimme hat signifikant höheren Durchschnitt v. korrekten Identifikationen • Nasal und langsame Sprechweise am uneffektivsten, während freie Wahl am effektivsten Tabelle 3
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Ergebnisse • Sprecherunterschiede • 6 Stimmverstellungen, die verstellte Sprache beinhalteten wurden zusammengelegt, um Durchschnittswert v. korrekten Identifikationen für alle 30Sprecher zu erhalten • Ermittlung, ob Sprecherunterschiede hauptsächlich mit Einfachheit der Stimmverstellung oder mit gesamter Sprechererkennbarkeit zusammenhängen: Vergleich des Sprecherdurchschnitts für vereinte verstellte und unverstellte Stimmen • Bestimmte Sprecher schwieriger identifizierbar in verstellten und unverstellten Sprechweisen
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Ergebnisse • Fehlerartverteilung • In Identifikations- Diskriminationsaufgaben für Sprecheridentifizierung 3Arten von Fehlern möglich: • 1. Fehler ID: Verstellung existierte, aber Untersucher wählte falsche (falsche Identifizierung) • 2. Fehler EL: Verstellung existierte, aber Untersucher erkannte sie nicht ( falsche Eliminierung) • 3. Fehler INC: Verstellung existierte nicht, aber Untersucher wählte sie (falsche Einbeziehung) • Untersuchung der Fehlerartverteilung durch Analyse der Wechselwirkungen zw. Verstellungsart, Fehlerart und Untersucher: • Wechselwirkung v. Verstellung + Fehlerart: Verteilung der Fehlerarten abhängig v. bestimmten Verstellungen • Wechselwirkung v. Fehlerart + Untersucher: Fehlerartverteilung gemäß der Tätigkeit eines bestimmten Untersuchers variierte -> Untersucher hatten „charakteristische“ Arten Fehler zu machen
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Ergebnisse • Wahrgenommene Schwierigkeit der Stimmverstellung • Tabelle4: Durchschnitt der empfundenen Stimmverstellungsschwierigkeit • Untersucher fanden bestimmte Verstellungen schwieriger • Unverstellte Stimme am einfachsten • Nasal wurde unter verstellten Stimmen am leichtesten empfunden • Freie Wahl, willkürlich gewählte Verstellung und heiser am schwierigsten -> diese Ergebnisse bestätigen Ergebnisse aus Tab.1: je schwieriger Untersucher Verstellungen empfanden, desto niedriger war ihre Leistung in Identifikation dieser Verstellungen Tabelle 4
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Ergebnisse • Empfundene Nützlichkeit der Schlüsselwörter für Sprecheridentifikation • Tabelle5: Durchschnitt der empfundenen Nützlichkeit jedes Stimulus- Wortes • Untersucher empfanden bestimmte Wörter nützlicher als andere für Sprecheridentifikation • Offensichtlich, dass Stimulus- Wörter, die nasale Phoneme enthalten (z.B. me, on, and), für ziemlich nützlich für Sprecheridentifikation gehalten wurden Tabelle 5
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Diskussion • Verringerung in Sprecheridentifizierung reichte v. 14,17%(langsam) bis 35%(freie Wahl) zeigt, dass spektrografische Sprecheridentifizierung durch Versuche die Stimme zu verstellen beeinflusst wird • Interessant, dass nur Ausführung eines Untersuchers sich bedeutsam v. dem der anderen unterschied -> Übung der Untersucher relativ gleich; Untersucher AI besaß vermutlich vor Übungsprogramm ähnliche Sprachanalysefähigkeiten • Fehlen bedeutsamer Wechselwirkung zw. Verstellung und Untersucher zeigt Einheitlichkeit der Übungsprozeduren für alle Verstellungen und Untersucher
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Diskussion • Bestimmte Stimmverstellungen weniger effektiv als andere • nasal eine der uneffektivsten Verstellungen • Energiespektrum während nasaler Phonation stark sprecherabhängig • Koartikulierte Nasalspektra liefern verlässlichere Hinweise für Identifizierung als Nasalspektra allein -> mag empfundene Nützlichkeit v. nasalen Schlüsselwörtern erklären • langsam: relative Unwirksamkeit dieser Verstellung • Relativ unveränderte spektrale Hinweise • Vokal- und Wortdauern merklich erhöht -> direkte Beziehung zw. Durchführung der Sprecheridentifizierung und der Dauer des Hinweismaterials hatten möglicherweise vereinfachenden Einfluss • alt und heiser: geringer Durchschnittswert richtiger Identifikationen • Signifikanter Wechsel in relativer Anzahl und Verteilung der „glottal zeros“ und „masking“- Effekte von der hohen Geräuschenergie
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung • Diskussion • Willkürlich gewählte und freie Wahl v. Verstellung: • Merkliche Verschlechterung der Sprecheridentifizierbarkeit durch mehrere verschiedene Verstellungen innerhalb einer Versuchsaufgabe • Große Entscheidungsschwierigkeiten der Untersucher, welche Hinweise zu ignorieren und welche zu berücksichtigen sind • Interessant, dass Schwierigkeit verschiedener Verstellungen ziemlich realistisch empfunden wurden • bestärkende Bedeutung der hohen Wechselwirkung zw. Einschätzung der Verstellungsschwierigkeit und den falschen Identifikationen • Urteil, dass bestimmte Schlüsselwörter nützlicher waren als andere für Sprecheridentifizierung, hat wichtige Bedeutung • falls bestimmte Wörter tatsächlich wirksame Hinweise für spektrografische Sprecheridentifizierung sind, könnten diese Wörter in Polizeiinterviews hervorgelockt werden
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Sprecher und Stimulus Materialien • 40 erwachsene, männliche Sprecher (Durchschnittsalter: 27,3Jahre) • 2 Sitzungen für Aufnahmen: - Reihe von 4 Sätzen für 1.Sitzung - andere Reihe v. 3 Sätzen für 2.Sitzung • 9 Schlüsselwörter in diesen Sätzen: it, is, on, you, and, the, I, to, me • 6 verschiedene Arten der Stimmverstellung: 1.normal, 2.alt, 3.heiser, 4.hypernasal, 5.extrem langsam, 6. frei Wahl • Aufnahmen in schalldichtem Raum • Aufgenommene Sätze auf folgende Art angeordnet, um 480 Paardiskriminationsversuche herzustellen: • 1.Glied des Stimulus- Paares unverstellter Satz aus 2.Sitzung • 2.Glied verstellter/ unverstellter Satz aus 1.Sitzung
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Sprecher und Stimulus Materialien • Jeder Sprecher durch 12unverstellte Sätze aus 2.Situng repräsentiert, die 2 mal mit jeden 6Sprechweisen aus 1.Sitzung paarweise angeordnet wurden • Hälfte der Stimuluspaare v. selben Sprechern („matches“) und andere Hälfte v. 2 verschiedenen Sprechern produziert („nonmatches“) • Alle Sprechweisen gleichermaßen in match- und nonmatch- Versuchen repräsentiert • Insg. 480 Satzpaare (40Sprecher* 6Sprechweisen* 1match* 1nonmatch) • 120 Stimuluspaare v.10 willkürlich gewählten Sprechern für Übung verwendet • Restl. 360 Satzpaare dann willkürlich 3 Tonbändern für eigentliches Experiment zugewiesen
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Übungsprozeduren • 2 Hörergruppen wurden trainiert für Sprecherdiskriminationsaufgaben: • Naive Gruppe v. Studenten • Anspruchsvolle Gruppe v. 3 Doktoranten und Professoren der Sprech- und Hörwissenschaften • Übung beinhaltete 120 Paardiskriminationsversuche • 2 Sätze pro Stimuluspaar 1,5s voneinander getrennt und gefolgt v. 7s Antwortintervall • Hörer mussten entscheiden, ob 2 Sätze ähnlich genug waren, um v. selben Sprecher produziert worden zu sein oder Gegenteil • Gleich-/ Unterschiedlich – Urteile jedes Versuchs auf Antwortbögen festgehalten • Hörer mussten Entscheidungszuversicht auf 5Pkt.- Skala einschätzen (1: „sehr unsicher“ , 5: „sehr sicher“)
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Experimentsablauf • Bestand aus 360 Paardiskriminationsaufgaben • Experimentelle Hören in 3 aufeinanderfolgenden, tägl. 45min.- Sitzungen mit 120 Satzpaaren pro Sitzung durchgeführt • Stimuluspaare über Kopfhörer (Telephonics TDH-39 in an MX-41/AR cushion) präsentiert • Jeder Hörer arbeitete unabhängig und schätzte seine Sicherheit ein • 2 Tage darauf musste anspruchsvolle Gruppe Stimuluspaare 1-40 auf 2.experimentellem Tonband wiederholen, um zu einigen Messungsverlässlichkeiten v. „Test- Retest“ zu gelangen
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • „Test- Retest“- Reliabilität • Tabelle 6: „Test- Retest“- Übereinstimmungen für anspruchsvolle Gruppe, die 40 Stimuluspaare wiederholt beantwortet haben • Durchschnittswert der Übereinstimmung für die 6 Hörer: 82,5% Tabelle 6
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Verteilungseffekte • Tabelle 7: Durchschnittswerte korrekter Entscheidungen für jede Sprechweise und Hörergruppe • Unverstellte Sprechweise signifikant höhere Werte als andere Sprechweisen • Für naive Hörer nasal und frei Verstellung effektivsten Verstellungen • Für anspruchsvolle Hörergruppe nur nasal bedeutsam effektiver als bestimmte andere Verstellungen Tabelle 7
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Verteilungseffekte • Tabelle 8: Durchschnittswerte korrekter Entscheidungen für jede Sprechweise und Hörergruppe mit Sicherheitsrate v. 3, 4 und 5 • Naive Hörer: unverstellte Sprechweise höhere Werte als alle anderen und nasal und freie Verstellung effektivste Verstellung • Anspruchsvolle Hörer: unverstellte Sprechweise bedeutsam höhere Werte als nasal, langsam und freie Verstellung Tabelle 8
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Verteilungseffekte • Ausschluss der Entscheidungen mit geringer Sicherheitseinschätzungsrate würde nicht zu bedeutsam höheren korrekten Werten führen
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Fehlerartverteilung • Bei Diskriminationsversuchen 2 Fehlerarten möglich: • 1. falsche Identifizierung: Hörer entscheidet, dass beide „samples“ zum selben Sprecher gehören, obwohl sie v. 2 verschiedenen sind • 2. falsche Eliminierung: Hörer entscheidet, dass „samples“ zu 2 verschiedenen Sprechern gehören, obwohl sie vom selben Sprecher produziert wurden
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Fehlerartverteilung • Tabelle 9: Prozentzahlen falscher Identifikationen und falscher Eliminierungen für jede Sprechweise, Übungs- und Experimentaufgaben beider Hörergruppen • Unverstellte Sprechweise hat höhere Prozentzahl an falschen Identifikationen als verstellten Sprechweisen -> Hörer antworteten bei verstellten Sprechweisen vorsichtiger, d.h. sie wollten Sprecher nicht falsch identifizieren, wenn einer der Sätze verstellt war -> wurde dadurch bestärkt, dass verstellte Sprechweisen im Experiment geringere falsche Identifikationen aufwiesen als in den Übungen
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Fehlerartverteilung • Tabelle 9 Tabelle 9
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Fehlerartverteilung • Tabelle 10: Prozentzahlen falscher Identifikationen und falscher Eliminierungen für jede Sprechweise, Übungs- und Experimentaufgaben beider Hörergruppen mit Sicherheitseinschätzungen v. 3, 4 und 5 • Zeigt, dass Befunde aus Tabelle 9 zu selbem Grad bestehen bleiben, wenn falsche Entscheidungen mit geringer Sicherheitseinschätzung ausgeschlossen werden • Langsame Sprechweise für beide Gruppen und nasale Verstellung für anspruchsvolle Gruppe zeigen größere Prozentzahlen v. falschen Identifikationen als falsche Eliminierungen • Anspruchsvolle Gruppe zeigte große Zunahme v. falschen Identifikationen v. unverstellter Sprechweise nach der Übung im eigentlichen Experiment
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Fehlerartverteilung • Tabelle 10 Tabelle 10
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Ergebnisse • Sicherheitseinschätzungen • Unverstellte Sprechweise bedeutsam höhere Sicherheitseinschätzung (ca.4,5) als alle anderen Sprechweisen außer langsame Sprechweise • Verstellte Sprechweise (3,3- 3,8) unterschied sich nicht merklich • Durchschnitte der Sicherheitseinschätzungen und der korrekten Werte der anspruchsvollen Gruppe wurden verglichen -> es existierte schwache – mäßige Tendenz dafür, dass die Sprechweisen, die höheren Durchschnitt an Sicherheitseinschätzungen hatten, auch höhere korrekte Werte zeigten
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören • Diskussion • Verringerung in Sprecheridentifizierung reichte v. 22,0%(langsam) bis 32,9%(nasal) für die naive Gruppe und für die anspruchsvolle Gruppe von 11,3%(heiser) bis 20,3%(nasal) • Während alle Paardiskriminationsaufgaben mit verstellter Sprechweise die Sprecheridentifikation beeinträchtigten, waren bestimmte Verstellungen effektiver als andere • Nasale Verstellung am effektivsten in dieser Höruntersuchung, wohingegen sie in vorherigen spektrografischen Untersuchung am uneffektivsten war • Freie Verstellung in beiden Untersuchungen (Spektrogramme+ Hören) lieferte Ergebnis einer sehr effektiven Verstellung
Quellen • Reich, A., Moll, K., Curtis, J. (1976). Effects of selected vocal disguises upon spectrographic speaker identification, Journal of the Acoustical Society of America, 60, 919-925. • Reich, A. R. and Duke, J. (1979). Effects of selected vocal disguises upon speaker identification by listening. Journal of the Acoustical Society of America, 66, 1023-1028.