390 likes | 538 Views
L@bphon. Tecniche di riconoscimento del parlante. Luciano Romito Dipartimento di Linguistica Laboratorio di Fonetica Università degli Studi della Calabria. Soriano sul Cimino 19 settembre 2007.
E N D
L@bphon Tecniche di riconoscimento del parlante Luciano Romito Dipartimento di Linguistica Laboratorio di Fonetica Università degli Studi della Calabria Soriano sul Cimino 19 settembre 2007
Distribuzione dei periti/consulenti intervistati sul territorio nazionale
Quante perizie/consulenze vengono effettuate in Italia in un anno Ad oggi e con poco più del 50% del campione, nell’anno scorso, tra perizie e consulenze, ne sono state effettuate ben 594
Forensic Speaker Identification • La FSI è una disciplina che rientra nella Fonetica Forense così come questa è una branca della Fonetica. • La Fonetica Forense oltre al FSI include Speaker Profiling ed altro come già detto
Chi è il perito nel mondo? • periti Fonetisti Full Time • Olanda, Germania, Svezia, Austria, Spagna e Svizzera (Rose 2002:21) • Periti occasionali (accademici etc) • Australia, Gran Bretagna (Braun and Kunzel 1998:4) • Italia (Romito-Galatà 2006)
Confronto dei sonogrammi Confronto Uditivo Automatici Semiautomatici Soggettivi Aural-Spectrografic identification
Aural-Spectografic (voiceprint) identification • Se parliamo di metodi soggettivi dobbiamo ricordare che: • gli uomini e i computer (Ladefoged 2001:78-95) • il giudice … è un uomo • Acoustic Theory of Speech Production: il comportamento di alcuni parametri acustici e articolatoriamente interpretabile) • Metodo automatico (cfr. Clermont and Itahashi 1999)
Acusticamente esistono molti parametri che possono essere usati per comparare le voci • la scelta è determinata da una approfondita analisi linguistica • non esistono parametri ideali ma solo alcune indicazioni: • a) mostrare una alta variabilità interparlatare e una bassa variabilità intraparltore; • b) essere resistente al camuffamento • c) avere una alta frequenza di occorrenza • d) essere robusto durante la trasmissione • e) essere relativamente facile da estrarre e misurare
voiceprint identification • Tale metodo è stato sviluppato e commercializzato da Kersta 1962 • Tosi (“... the legal application of speaker identification, which at present still consists mainly in the practice of visual examination of spectrograms...”). • successivamente negli anni ‘70 ed in seguito ad una serie di critiche (tra cui per ultimo Romito 2000) si è deciso di utilizzare una combinazione del Metodo Uditivo e di quello Visivo. (Hollien 1990:215) • Tale metodo viene chiamato Aural-Spectographic Method (McDermott et al. 1996)*
Dove viene utilizzato • Questo metodo è ancora usato almeno fino al 2001) dall’FBI (Nakasone and Beck 2001)* • Dalla Polizia Giapponese (Osanai 2001) • In Israele, Italia, Spagna, Columbia (Rose 2002) • Non viene più usato in Olanda e Germania (Kunzel 1994:138)
riconoscere una voce è una abilità umana • I fonetisti di questa abilità ne fanno il proprio lavoro • questa abilità è stata per decenni riconosciuta dai Tribunali (Gruber and Poza 1995:section 99) • la scienza e la letteratura è invece controversa: • il dato uditivo è sufficiente: Badwin 1979, Baldwin and French 1990:9) • il dato uditivo non è necessario anzi non serve (Furui 1989) • Bisogna combinare le due tecniche acustico e uditivo (Kunzel 1987, 1995:76-81; French 1994:173-4)
non tutti hanno la stessa abilità (Ladefoged and Ladefoged 1980:45; Hollien 1995:15, Foulkes and Barron 2000:182) • alcune voci sono più facilmente identificabili (Popçun et al. 1989, Rose and Duncan 1995:12,16) • altre voci sono più simili tra loro rispetto ad altre
Caratteristiche associate alla identificazione uditiva • L’esposizione • Più si ascolta una voce più questa diventa familiare e quindi più facilmente identificabile (Ladefoged and Ladefoged 1980:49) • più una voce è familiare più è facile capirla anche in contesti rumorosi. • a volte la familiarità della voce sembra facilitare il compito invece…
Caratteristiche associate alla identificazione uditiva • La quantità. • esperimenti mostrano che nell’ascolto di una sola parola l’errore è del 69%, lo stesso scende al 34% con una frase e al 17% con ascolti di 30 sec. (Rose 2002:102) • La distanza tra gli ascolti • Errore del 50% dopo 10 minuti. 57% dopo un giorno, 61% dopo 7 giorni, 68% dopo 15 gg. • Competenza della Lingua o dialetto sia nel confronto sia conoscenza da parte dell’ascoltatore • One is far more likely to identify a voice as a given person’s if one is expecting to hear that person’s voice>> Ladefoged 1978, Ladefoged and Ladefoged 1980:47, Broeders 1995:155 Romito 2000.
Approfondimento del Metodo sonografico • Non c’è accordo • (Gruber and Poza 1995:section 54-71) • Esistono almeno due protocolli • Il primo sviluppato da VIAAS (Voice Identification and Acoustic Analysis SubCommittee, della International Association for Identification pubblicato negli atti dell’associazione VCS 1991) • Il secondo protocollo è quello dell’FBI (Koenig 1986:2089-90) • I protocolli sono molto simili, entrambi sono soggettivi e basati sull’esperienza dell’esperto
VCS 1991:373-9 • Ideally, the exemplar should be spoken [by the suspect] in a manner that replicates the unknown talker, to include speech rate, accent, (whether real or feigned), hoarseness, or any abnormal vocal effect… In general, the suspect is instructed to talk at his or her natural speaking rate: if this is markedly different from the unknown sample, efforts should be made through recitation to appropriately adjust the speech rate of the exemplar… Spoken accents or dialects, both real and feigned should be emulated by the known speaker… If any other unique aural or spectrally displayable speech characteristics are present in the questioned voice, then attemps should be made to include them in the exemplars.
AFTI • Visual comparison of spectrograms involves, in general, the examination of spectrograph (??) features of like sounds as portrayed in spectrograms in terms of time, frequency and amplitude… Aural cues… include resonance quality, pitch, temporal factors, inflection, dialect, articulation, syllable grouping, breath pattern disguise, pathologies and other peculiar speech characteristics
Critiche • Dove è la scientificità? • Il riconoscimento della voce e il riconoscimento visivo interessano differenti parti del cervello (cfr. Blakemore 1977:161-4) • L’emisfero destro viene utilizzato per il riconoscimento dei volti e l’emisfero sinistro per le voci. • Inoltre dipende anche se le voci sono familiari. Le voci familiari vengono riconosciute dall’emisfero destro come i volti. • Al momento attuale il metodo uditivo non utilizza un metodo analitico ma più che altro intuitivo • Non ci sono evidenze nell’esaminatore o caratteristiche numerabili • Non si conoscono gli elementi minimi della comparazione (Hollien 1990:215) • Come può la voce essere discriminata con questo metodo? • Utilizza parametri qualitativi o quantitativi? (Aitken 1995:14-15) • I dati di partenza sono differenti. • Non basta parlare di contorni formantici. • Bisogna definire una serie di passi attuabili da qualunque laboratorio e che conducano allo stesso risultato
“Foto A ‘orno’ di ‘Buongiorno’. La prima formante corrisponde alla ‘o’, quindi la ‘r’, consonante occlusiva, seguita dalla ‘n’ e successivamente di nuovo la seconda formante della ‘o’ conclusiva in quanto non seguita da consonante. […] Dopo la ‘b’ occlusiva […] segue la prima formante corrispondente alla ‘i’, quindi la inspirazione e la successiva espirazione con la ‘l’ e la successiva formante di ‘e’, sempre con la stessa ripresa di energia tra la inspirazione e la espirazione conclusiva. [...] Nella foto 2 si evidenzia un inviluppo compresso con la prima formante (i) e quella terminale, seconda formante della ‘e’ confermando la mancanza di armonicheproprio dalla compressione dell’inviluppo e da esaltazioni particolari. [...] Solo in qualche occasione si è visualizzata l’esaltazione diformanti, rimanendo per il resto piuttosto contenuta, né si è rilevata esaltazione nella fase di espirazione finale per la tendenziale caratteristica di pronuncia veloce e ripresa rapida nella parte terminale. Infatti in alcuni oscillogramma non risulta presente tale manifestazione poiché il soggetto riesce in un’unica espirazione a pronunciare l’intera parola, senza necessità di recupero.
Approfondimento delMetodo uditivo • Metodo uditivo attraverso ascoltatori inesperti • Metodo uditivo attraverso un campione ristretto di esperti fonetisti (trained phonetician) • Single vs multiple choice • Familar vs unfamilar voices
Metodo Uditivo • Nei metodi uditivi vi è il Panel approach • comparazione di coppie di frasi e risposta in percentuale di diversi tipi sia solo percettivi che fino alla identificazione di parti molto tecniche ed acustiche. • il Direct processing • dove un ascoltatore esperto ascolta un intero brano e identifica la voce. • l’Aural-Perceptual Approach (cfr. tabella)
Voce Anonima A rumore bianco Voce Anonima B Rumore bianco Voce Anonima A Rumore bianco Voce Anonima B Rumore Bianco Voce Nota C Rumore bianco Voce Nota D Rumore bianco Voce Anonima B Voce Anonima A Voce Anonima A Voce Anonima B Voce Anonima A Voce Anonima B Uditivo sfruttando la memoria a breve termine
costruzione test • Per questa fase possono essere utilizzati diversi programmi che operano con piste separate • Nella creazione di questi set di confronto particolare attenzione deve essere posta sul tentativo di ricreare le stesse condizioni qualitative. • Ciascun set deve essere composto rispettando la seguente struttura: • [set Z = voce X + silenzio + voce Y (+ rumore)] • dove • a) “silenzio” inserito tra “voce X” e “voce Y” è della durata di 1,2 secondi; • b) “(+ rumore)” è il rumore di fondo presente nelle conversazioni intercettate e che deve essere aggiunto alla porzione del saggio fonico con un operazione di mixing • c) “voce X” e “voce Y” possono essere rispettivamente, una porzione della conversazione intercettata e una del saggio fonico (o viceversa), sulla base, ovviamente, delle frasi precedentemente ritenute utili di durata 2,4 sec. • D) “rumore” è rumore bianco che resetta e prepara la memoria a breve termine per un nuovo confronto.
Esecuzione del Test • Il gruppo di ascoltatori • Il test deve essere sottoposto ad un campione di ascoltatori di almeno 50 unità. Gli ascoltatori, di età media compresa tra i 18 e i 35 anni, sono provenienti dalle province sia del sospettato che delle voci anonime (ovviamente questo prevede una analisi dialettologica preventiva) • Nessuno dei soggetti su specifica richiesta soffre o ha sofferto di disturbi di tipo uditivo tali da inficiare le risposte fornite durante il test. • Modalità e luogo di esecuzione del test • Il test si svolge all’interno di una camera silente o anecoica. Le registrazioni del test devono essere riprodotte in modalità stereofonica con sorgente sonora frontale. Il test viene condotto in presenza di un operatore con funzioni di supervisore e coordinatore del test stesso.
Premesse fatte agli ascoltatori • Prima di sottoporre il test agli ascoltatori, agli stessi vengono fatte alcune premesse per un corretto svolgimento delle operazioni di valutazione loro richieste. Nello specifico viene loro illustrata brevemente la prova da svolgere: • dare una risposta secondo la tabella che segue soffermando l’attenzione solo ed unicamente sulla somiglianza o meno delle voci ascoltate.
I risultati del Test • Il test deve essere così composto: • 20 set di confronto, relativi alla comparazione tra il saggio fonico e le voci anonime; • 10 set di confronto, relativi alla comparazione tra le voci anonime; • 10 set di confronto, relativi alla comparazione tra le voci note; • 10 set di controllo di cui con risposta “no” e con risposta “si”. • Vengono accettati e utilizzati al fine della comparazione uditiva solo quei test che superano il set di controllo con almeno 25 risposte corrette su 30. • Solo alla fine il risultato ottenuto, frutto di una analisi soggettiva, avrà valore scientifico.
Domande da porsi sul proprio metodo • Precisely what parameters were used to compare the samples? • How can the parameters be justified? • In what way were the parameters quantified? • What decision procedures were used? What for exemple, were the threshold? • How can these decision procedures be justified? • What is the probability of observing the differences between samples assuming same speaker origin/different speaker origin?