340 likes | 442 Views
Inwiefern unterscheiden sich „Voiceprints“ und Fingerabdrücke bezüglich der Zuverlässigkeit der Sprecheridentifikation? Wie zuverlässig ist eine visuelle, spektrographische Analyse im Vergleich zu einer auditiven Analyse für die Identifikation der Sprecheridentität?. 1. Fingerabdrücke
E N D
Inwiefern unterscheiden sich „Voiceprints“ und Fingerabdrücke bezüglich der Zuverlässigkeit der Sprecheridentifikation? Wie zuverlässig ist eine visuelle, spektrographische Analyse im Vergleich zu einer auditiven Analyse für die Identifikation der Sprecheridentität?
1. Fingerabdrücke • Die ersten bekannten Fingerabdrücke gehen auf die neolithische Zeit zurück • 1686 bemerkte der italienische Anatom Marcello Malpighi, dass sich die menschlichen Fingerabdrücke von einander unterscheiden. • Erst 1823 hat J.E. Purkinje den ersten Traktat publiziert, in dem er die Papillarleisten (papillary ridges) in 19 Arten klassifiziert hatte (die Purkinje Muster). • Herschel sammelte Fingerabdrücke innerhalb von 30 Jahren und ist zum Schluss gekommen, dass die papilläre Falten (papillary folds) sehr beständig sind. • Die erste wissenschaftliche Studie zu den Fingerabdrücken stammt vom berühmten britischen Genetiker und Anthropologen Francis Galton (1888)
Die Haut, die aus Erhöhungen (ridges) besteht, beinhaltet Schweißdrüsen, durch die Schweiß vermischt mit dem Talg an die Oberfläche kommt. Beim Kontakt mit der glatten Oberfläche hinterlässt diese Flüssigkeit bemerkbare Spuren. Eindeutig bestimmbar im Alter von 4 Monaten, gewinnbar von den Leichen (und Mumien), unveränderlich und unbeweglich machen Fingerabdrücke wahre individuelle Eigenschaft aus.
2. Genetische Fingerabdrücke • Kontinuität der spezifischen Eigenschaften alles Lebenden ist durch die Informationen gewährleistet, die während der Zellteilung weitergeleitet werden. • Das in jeder Zelle vorhandene genetische Material setzt sich aus der im Zellnukleus enthaltenen DNS und der in den Mitochondrien enthaltenen DNS. • Die molekulare Struktur der DNS war 1953 von Watson und Crick entdeckt: die aus zwei verflochtenen Ketten gebildete und aus fest zusammengebundenen Nukleotiden zusammengesetzte Doppelhelix.
Nur ein Teil der DNS funktioniert wie ein Kode, der jeder Zelle Synthese der für sie nötiger Moleküle erlaubt. Diese Bereiche, genannt Mini-Satelliten, bestehen aus sich wiederholenden Abfolgen der Nukleotiden (20 bis 70), die abhängig von der Einzelperson 3 bis 10 mal abgebildet sind. • 1985 haben Wilson, Jeffreys und Thein entdeckt, dass bestimmte Abfolgenfamilien ein gemeinsames Muster aufweisen: eine Molekularkette, die aus einer Abfolge der Nukleinsäure besteht und mindestens 20 Nukleotiden enthält. • Da die Moleküle beim Erbgang weitergeleitet werden, ist es möglich, die Identitätsforschung auf den Familien durchzuführen.
Da die Wahrscheinlichkeit zwei Menschen mit demselben genetischen Profil zu treffen, extrem klein ist, scheint die genetische Analyse die zuverlässigste der heute entwickelten Methoden zu sein.
3. Voiceprints • Menschen besitzen die Fähigkeit, bekannte Stimmen zu erkennen. • Man kann aber nicht sagen, dass jede Stimme Eigenschaften besitzt, die sie einmalig unter allen anderen Stimmen erscheinen lassen. • Es gibt keine Beweise dafür, dass die Phonetiker in der Stimmenidentifikation besser als die Laien sind. • 1980 wurde auf dem Colloqium of British Academic Phoneticians die Aussage gutgeheißen: „Die Phonetiker sollten sich nicht für Experten in der Sprecheridentifikation halten, bevor sie sich als solche beweisen können“.
1962 erschien in Nature ein Artikel mit dem Titel „Voiceprint identification“. • Dieser fehlerhafte metaphorische Terminus „Voiceprint“ lässt viele Menschen glauben, dass die graphische Darstellung der Stimme (Sonagramm) genau so zuverlässig wie die Struktur der Papillarleisten der Fingerabdrücke oder der genetischen Fingerabdrücke ist, und dass sie die zuverlässige Sprecheridentifizierung erlaubt. • Aber kein Sprachspezialist hat Beweise für die Zuverlässigkeit der Sprecheridentifikation durch Spektrogrammanalyse gefunden.
Vergleich von Fingerabdrücken, genetischen Fingerabdrücken und Sprachsignalen
Vergleich von Fingerabdrücken, genetischen Fingerabdrücken und Sprachsignalen
4. Sprecherauthentifikation und Sprecheridentifikation Um herauszufinden, wie zuverlässig eine visuelle, spektrographische Analyse im Vergleich zu einer auditiven Analyse für die Identifikation der Sprecheridentität ist, wurde eine Studie gestartet. Die Studie beschäftigte sich mit folgendem Experiment: Die Testperson bekommt Samples desselben Sprachmusters, erzeugt von einer Zahl der Sprecher. Dann wird ihr ein Kontrollstimulus präsentiert, eine neue Version des Musters eines der Sprecher. Ihre Aufgabe ist, den Sprecher zu identifizieren; dabei darf sie die vorgeführten Samples so oft sie will hören. Diese Technik heißt matching-from-sample procedure. Sprecheridentifikation wurde auf zwei verschiedene Weisen der Sprachmaterialpräsentation untersucht: 1). Sprachmaterial wurde über Kopfhörer präsentiert; 2). Sprachmaterial wurde visuell als Spektrogramm präsentiert.
Fragen, die zu Beginn der Studie gestellt wurden: • Wie vergleichbar ist die Leistung der Testpersonen in visuellen und Hörtests? • Hängt die Fähigkeit der Sprecheridentifikation von den Eigenschaften des verwendeten Musters: seiner Länge, seines phonetischen Inhalts etc? • Gibt es individuelle Unterschiede in der Identitätsfähigkeit der Stimmen, und gibt es Unterschiede zwischen Menschen in ihrer Fähigkeit, Stimmen auditiv und visuell zu unterscheiden? • Wie treten Menschen in Bestätigungstests auf, in denen der Sprecher des Musters als einer der Gruppe der in der Samplebibliothek präsentierten Sprecher zu identifizieren ist?
Zwei Experimentarten wurden durchgeführt: (1) Reihe der closed Tests, in denen es Samplebibliothek von acht Sprechern gab, und die Kontrollmuster von einem der Sprecher zu produzieren waren; (2) Reihe der open Tests, in denen dieselbe Samplebibliothek von acht Sprechern verwendet wurde, aber die Kontrollmuster könnten oder könnten nicht von einem dieser Sprecher produziert worden sein.
Auswahl der Sprecher • Es wurde beschlossen, eine Bibliothek der Wörter vorzubereiten, die von 24 männlichen Sprechern im Alter von 20 bis 40 Jahren gesprochen wurden, dessen Stimme man für typisch männlich hielt, und die keinen starken Akzent und keine signifikanten Abweichungen in der Artikulation hatten. Dafür wurden Aufnahmen von 59 Männern gemacht,als jeder einen Textabschnitt und drei isolierte Spondeus Wörter (spondee ) vorgelesen hat. • Als nächstes wurde eine Gruppe der Sprachforscher zusammengestellt und gebeten, die Sprecherstimmen nach bestimmten Merkmalen zu bewerten: (a) niedrig-hoch, voll-dünn, tief- flach; (b) langsam-schnell; (c) klar-unklar, rau-sanft; (d) ohne regionalen Akzent - mit regionalem Akzent; (e) gute Artikulation - schlechte Artikulation; (f) ohne nasale Resonanz - mit starker nasalen Resonanz.
Die Sprecher mit untypischer Artikulation, starkem Akzent und nasaler Resonanz wurden sofort ausgeschlossen. Für die restlichen Sprecher wurden abhängig von der durchschnittlichen Bewertung der Merkmale a, b, c und d und ihrer Vokaltraktlänge Verteilungskurven erstellt. Um die Zahl der Sprecher auf 24 zu reduzieren, wurden 2 Kriterien verwendet: (1) Sprecher mit extremen Werten (wie sehr langsames Tempo oder seht niedrige Tonhöhe) wurden ausgeschlossen ; (2) Eigenschaften der ausgewählten Sprecher beinhalteten angemessene Verteilung verschiedener Merkmale. Durch diese Prozedur wurde eine homogene Gruppe von acht bekannten Sprechern ausgewählt, deren Sprachmuster beim Experiment zum Vergleich dienen werden. Die gebliebenen 16 Sprecher wurden als unbekannte Sprecher verwendet, deren Sprachmuster zum Vergleich bei den open Tests nicht verfügbar sein werden.
Auswahl des Sprschmaterials Es sollte eine halbwegs große Auswahl an Sprachlauten repräsentiert werden, so dass man die relative Wichtigkeit verschiedener Klassen der Sprachlaute bei der Sprecheridentifikation mit zwei Methoden einschätzen könnte. Die Musterlänge war auch sehr wichtig.
Die Tabelle zeigt, dass einige kurze Wörter auch ein Teil der längeren Wörter oder Phrasen sind. Somit war es möglich, die Fähigkeit der Testpersonen, den Sprecher aufgrund isoliert ausgesprochenen Wortes mit ihrer Fähigkeit, den Sprecher aufgrund längerer, dasselbe Wort enthaltenen Einheit, zu vergleichen. • Sechs der Wörter auf der Liste sind Spondeus Wörter. Da beide Silben betont werden, obwohl die Hauptbetonung auf der ersten Silbe liegt, dachte man, dass jede Silbe einen Beitrag zur Sprecheridentifikation leisten könnte. Diese Wörter wurden so ausgesucht, dass hintere und vordere Vokale etwa gleich in betonten Silben vertreten waren, und relativ breite Verteilung der Konsonanten auf verschiedenen Positionen im Wort beinhalteten.
Auswahl der Testpersonen Aus insgesamt 10 Hochschulstudenten, die sich für die Teilnahme in Experimenten beworben haben, wurden sechs ausgesucht (drei Männer und drei Frauen). Die Auswahl basierte auf Durchleuchtung ihres Gehörs und aufgrund der Untersuchung ihrer Fähigkeit, sich mit sechs früher unbekannten Stimmen vertraut zu fühlen. Da nur zwei Studenten nach der Durchleuchtung ausgeschlossen wurden, wurde die endgültige Auswahl von drei Männern und drei Frauen per Zufall getroffen. Ihr Durchschnittsalter war 19,5 Jahre und Englisch war ihre Muttersprache.
Closed Tests • Materialien für die closed Tests bestanden aus fünf Wiederholungen der elf Wörter aus der Tabelle, die von acht bekannten Sprechern aufgenommen wurden. • Es wurden zwei Reihen der Vergleichsmuster zusammengestellt. • Für jedes Wort wurde eine Reihe der Vergleichseinheiten den drei Testpersonen und die andere Reihe der Vergleichseinheiten den anderen drei präsentiert. • Im Falle der Hörtests konnte die Testperson jedes der Vergleichsmuster oder die Kontrolleinheit durch das Drücken eines der neun angemessen beschrifteten Schalter hören. • Die Sprache wurde mit Geräuschen vermischt, um Atmungsgeräusche, Bewegungsgeräusche und Klicks zu maskieren. • Vor den Hörtests wurde jeder Testperson die Möglichkeit gegeben, einmal jedes der acht Vergleichsmuster zu hören.
Im Falle der visuellen Tests war jedes Kontrollmuster ein Spektrogramm eines Wortes und die Vergleichsmuster waren acht Spektrogramme, die eine Äußerung des Wortes durch jeden der acht Sprecher darstellten. So war die Testperson im Stande, das gegebene Kontrollspektrogramm mit jedem der Vergleichsspektrogramme zu vergleichen. • Der Test bestand aus 32 Äußerungen eines gegebenen Wortes. • Jede Testperson nahm an 28 closed Tests (14 Hörtests und 14 visuellen Tests) teil. • Für jede Testperson und jeden Test wurden den Vergleichsmustern verschiedene Nummern von 1 bis 8 zugeteilt. • Muster wurden in einer zufälligen Reihenfolge präsentiert. • Durchschnittlich machten die Testpersonen zwei Hörtests und zwei visuelle Tests während einer einzelnen Sitzung.
Open Tests • Der Ablauf der open Tests war ziemlich ähnlich mit dem der closed Tests, nur dass die Äußerungen der unbekannten Sprecher in den Kontrollsamples der bekannten Sprecher enthalten waren. • Zwei der elf Wörter wurden verwendet (sidewalk und dovetail). • Es wurden vier Testpersonen gebraucht. • Jede Testperson hat an 12 Tests teilgenommen (sechs Hörtests und sechs visuellen Tests). • Die verwendeten Wörter, Testmuster, Konditionen und Vergleichsmuster wurden vom Test zu Test für jede Testperson zufällig angeordnet. • Die Instruktionen für die Testpersonen waren grundsätzlich dieselben wie in closed Tests. Allerdings wurden die Testpersonen informiert, dass die Kontrollmuster von einem der acht bekannten Sprecher stammen könnten oder nicht.
Die erste Aufgabe der Testperson war, zu bestimmen, ob das vorgeführte Muster von einem der acht Sprecher stammte, und dann musste man eingeben, wie sicher man sich bei der Entscheidung war. • Falls die Testperson angab, dass das Kontrollmuster von einem der acht Sprecher stammte, musste sie den Sprecher identifizieren und eingeben, wie sicher sie sich bei der Entscheidung war.
Ergebnisse der Closed Tests • Nach 14 Tests (etwa vier Aufnahmestunden) lief der Lernprozess schneller für Hörtests als für visuelle Tests ab. Nach der Erklärung des experimentellen Ablaufs, haben die Testpersonen etwa die gleiche Zeit für beide Tests gebraucht- etwas über 1 min für die Entscheidung. • Die benötigte Zeit für Hörtests hat nach sechs Tests sehr schnell auf weniger als die Hälfte gesunken, wobei die Zeit für die visuellen Tests viel langsamer abnahm. Die benötigte Zeit scheint vor allem von der Länge der Äußerung abzuhängen. Für die Hörtests schwankt die durchschnittliche Zeit für die Identifikation von 26 sec für das Wort side bis 47 sec für einen Satz. Für die visuellen Tests ist die Spannweite von 37 sec für das Wort base bis 61 sec für einen Satz. • Für die Hörtests lag die Fehlerquote etwa bei 18% und fiel auf 6% bei späteren Tests. Bei visuellen Tests fiel die Fehlerquote von 28% auf 21% während vergleichbaren Zeitabschnitts.
Die Präzision, mit der die Testpersonen den Sprecher identifiziert haben, schwankte deutlich. Für die visuellen Tests gibt es mit der wachsenden Länge der Äußerung ständige Verbesserung in Erkennung des Sprechers. Für die Hörtests ist die Länge weniger wichtig, und wenn die Silbenzahl drei überschreitet, scheint es im Durchschnitt keine weitere Verbesserung in Erkennung zu geben. • Die Wörter mit betonten vorderen Vokalen erlauben einem, den Sprecher viel schneller zu identifizieren, als die Wörter mit betonten hinteren Vokalen. • Ergebnisse zeigen, dass es große Unterschiede in der Fähigkeit der visuellen und auditiven Sprecheridentifikation zwischen den Testpersonen gibt. Außerdem gibt es keine Übereinstimmung in Ergebnissen für beide Testarten, d.h. die Testperson, die gut in Hörtests abgeschnitten hat, war nicht notwendigerweise gut in visuellen Tests.
Die Spannweite der Fehlidentifikation bei den visuellen Tests ist ziemlich klein (20% bis 30%). Bei den Hörtests ist sie viel größer; manche Sprecher wurden seltener mit anderen verwechselt, während andere viel öfter falsch identifiziert wurden. So gibt es schwache Beweise dafür, dass die Stimme beim Hören markant ist und auch markante spektrogrsphische Muster aufweist. • Bei jedem Test hatte die Testperson den Zugriff nur auf eine Variante des Vergleichsmusters. Drei Testpersonen haben eine Reihe der Vergleichsmuster verwendet, und die anderen drei eine andere Reihe. Da ein Sprecher eine Äußerung nie auf gleiche Weise zweimal produziert, kann man erwarten, dass sich diese Vergleichsmuster ein wenig unterscheiden, und dass sich die Ergebnisse der Sprecheridentifikation abhängig von unterschiedlichen Mustern unterscheiden.
Und das ist wirklich der Fall, obwohl der Unterschied für die meisten Wörter sehr klein war. Bei den Hörtests gab es den auffälligsten Einfluss bei Vergleichsmustern für Phrasen und Sätze, z.B. für a baseball glove war die Fehlerquote bei einer Reihe der Vergleichsmuster 1% und 12% bei der anderen Reihe. • Bei den Tests stellte sich heraus, dass man sich bei den Antworten für Hörtests viel sicherer war als bei visuellen Tests, und das bei jeder einzelnen Testperson.
Ergebnisse der Open Tests • Für open Tests hatten die Testpersonen zweifache Aufgabe: den Sprecher zu authentifizieren und falls er als bekannt erkannt wird, ihn zu identifizieren. • Durchschnittszeit für die Hörtests war etwa 30 sec, während sie für die visuellen Tests etwa 60 sec war (25 secbzw. 45 sec bei closed Tests). • Bei den Hörtests war die Authentifikationsquote der bekannten Sprecher bei etwa 90%, während 6% bis 8% der unbekannten Sprecher falsch authentifiziert wurden. • Bei den visuellen Tests wurden relativ viele unbekannte Sprecher falsch authentifiziert. Offensichtlich waren die Unterschiede zwischen Spektrogrammen verschiedener Sprecher weniger sichtbar als die gehörten Unterschiede bei den Hörtests.
Vergleich mit anderen Studien Vergleichbare Studien: • Young und Campbell haben die Aufnahmen der 5 Sprecher verwendet, und hatten 10 erfahrene Beobachter, um die Sprecher aus den Spektrogrammen der einzeln ausgesprochenen Wörter you und it zu identifizieren. Durchschnittliche Fehlerquote bei den Testpersonen war 22%, was ein bisschen weniger als die Fehlerquote von 23%, 25% und 51% für die einsilbige Wörter der vorliegenden Studie ist. Die geringere Fehlerquote kann durch die kleinere Sprecherzahl erklärt werden. • Kersta hat in seinen Experimenten zur Sprecheridentifikation noch kleinere Fehlerquoten bekommen. Z.B. bei der Sprecherzahl von 9 und verschiedenen einsilbigen Wörter als Sprachmaterial hat er Fehlerquoten von 0% bis 2% bekommen.
Bricker und Pruzansky haben die Fähigkeit der Hörer untersucht, Stimmen der ihnen sehr vertrauten Sprecher zu identifizieren (Samples der unbekannten Stimmen gab es während der Tests nicht). Für 10 Sprecher, die einsilbige Wörter ausgesprochen haben, haben sie die Fehlerquote von 19% bekommen, während die Fehlerquote für solche Äußerungen in der vorliegenden Studie nur 8% bis 17% beträgt. • Eine mögliche Erklärung für solche Abweichungen ist, dass die verschiedenen Spektrographmodelle in verschiedenen Studien verwendet wurden.
Zusammenfassung der Ergebnisse • Auditive Sprecheridentifikation ist viel exakter als die Identifikation auf Grund Spektrogramme. Die Testpersonen sind viel sicherer bei der Identifikation für die Hörtests. • Für visuelle Identifikation erhöhen längere Muster die Möglichkeit korrekter Identifikation. • Es ist einfacher, den Sprecher zu identifizieren, wenn er ein einen vorderen Vokal enthaltenes Wort äußert, als wenn er ein einen hinteren Vokal enthaltenes Wort äußert. • Es gibt große Unterschiede in auditiver Abgrenzbarkeit der Stimmen, sogar wenn die Stimmen einigermaßen homogen zu sein scheinen. • Es gibt große Unterschiede in der Fähigkeit der Testpersonen, Stimmen auf auditiver oder visueller Ebene zu identifizieren.
Indirekte Beweise zeigen, dass die Sprecheridentifikationsquoten, die auf den Antworten aller Testpersonen zusammen basieren, viel besser sind, als die Quoten für jede einzelne Testperson. • Indirekte Beweise zeigen, dass die matching-from-sample Technik, bei der Vergleichsmuster aus einigen Wiederholungen einer Äußerung durch jeden Sprecher bestehen, zu einer niedrigeren Fehlerquote führt, als wenn nur ein Vergleichsmuster von jedem Sprecher verfügbar ist. • Stimmauthentifikation ist auf visueller Ebene schwächer als auf der auditiven Ebene. Ergebnisse dieser Studie beweisen, dass die matching-from-sample Technik bei der Stimmauthentifikation und –identifikation auf visueller und auditiver Ebene erfolgreich verwendet werden kann. Beide Methoden haben Besonderheiten, die für die praktische Nutzung attraktiv sein könnten.