L’Indagine Fonica CASI REALI e METODI PER L’ IDENTIFICAZIONE DEL PARLATORE

L’Indagine Fonica CASI REALI e METODI PER L’ IDENTIFICAZIONE DEL PARLATORE Magg. Davide Zavattaro Soriano nel Cimino, 21.09.07

PARTE I Il riconoscimento del parlatore

Il riconoscimento del parlatore (Speaker Identification) L'importanza del riconoscimento del parlatore deriva dal tipo di reato che tipicamente si commette con l'impiego della voce Rapimenti Estorsioni Droga Rivendicazioni di Attentati Molestie Ingiurie

Provenienza reperti: • Attività di intercettazione di P.G. ai sensi dell’art. 266 c.p.p. • Registrazioni ordinarie di Enti Istituzionali o privati (es. 117, 118, Aeroporti…) • Denuncia di privati cittadini

Essendo la natura dell’esame tipicamente comparativa, è necessario disporre di idoneo materiale di confronto: Conversazioni/telefonate di sicura provenienza e attribuzione oppure Si procede all’acquisizione di un saggio fonico

Acquisizione del saggio fonico • Il soggetto deve essere iscritto nel registro degli indagati • L’avvocato deve essere invitato a presenziare • Le apparecchiature di acquisizione devono essere simili a quelle utilizzate per registrare la voce anonima • Preventivamente bisogna stilare un testo contenente le frasi pronunciate dall’anonimo

Acquisizione del saggio fonico • FASE 1: Colloquio introduttivo con richiesta generalità • FASE 2: L’indagato deve ripetere le frasi contenute nel testo, sotto dettatura • FASE 3: Colloquio informale con l’indagato Al termine: Redazione del verbale

PRINCIPALI PROBLEMI NELL’ANALISI DELLE VOCI: • Microvariabilità temporale della voce • Variabilità di lungo termine • Trattazione matematica dei dati • Effetti del canale di trasmissione • Disturbi (rapporto s/n) • Quantità del materiale anonimo • Disponibilità del materiale di riferimento/saggio fonico

Il processo di produzione fonatorio crea due categorie di ‘reperti’ utili alle indagini… LA VOCE IL MESSAGGIO

…ne derivano due filoni metodologici per l’identificazione : ANALISI FONETICO-LINGUISTICHE (soggettive, qualitative) - fonetiche, lessicali, prosodiche… ANALISI STRUMENTALI (oggettive, quantitative) -analisi delle frequenze prodotte nella fonazione (vibrazione corde vocali e frequenze di risonanza del cavo orale)

Gli esami linguistici: • Sono stabili rispetto al canale • Sono robusti rispetto al rapporto segnale/rumore • Possono fornire un quadro particolareggiato • ma • Richiedono grandi quantità di materiale • Prevedono che si tratti della stessa lingua • Sono qualitativi

Gli esami strumentali • Sono oggettivi (misure delle frequenze sonore emesse) • Richiedono una quantità minimale di segnale utile (circa 12 secondi). • Consentono un’elaborazione statistica dei dati fornendo gli elementi indispensabili per i processi decisionali. • Ma • Sono condizionati dalla qualità del segnale (rapporto s/n) • Gli esiti delle analisi attuali si aggirano su valori di p.f.i. che oscillano, nei riconoscimenti positivi, tra 10-2 e 10-4.

La SOLUZIONE è cercare un’integrazione tra più metodologie La difficoltà principale è riconoscere le aree di sovrapposizione (parametri indipendenti) e rendere quantitativi gli esami linguistico-fonetici

Nel mondo sono tipicamente impiegati 3 metodi per il riconoscimento del parlatore • Linguistico-fonetico • Semi-automatico • Totalmente automatico

Metodo Linguistico-Fonetico Storicamente è stato il primo ad apparire Richiede un notevole background di carattere fonetico E’ fortemente dipendente dalla lingua Richiede grandi quantità di materiale audio

Metodo Linguistico-Fonetico Le analisi si dividono in: 1. Prove d’ascolto 2. Esami fonetici 3. Esami lessicali 4. Esami prosodici

1. Prove d’ascolto Sono basate sulla memoria a breve termine Si costruisce un file, contenente sia le frasi anonime che le medesime pronunciate dal sospettato, poi si procede all’ascolto, ripetendo l’operazione in tempi diversi

2.Esami fonetici Si ricercano gli elementi caratterizzanti che differiscono dalla pronuncia corretta nazionale ES. TRE tré, trè, tce... ES. NOVE nòve, nóve… L’insieme dei risultati darà indicazioni sulla regione linguistica di provenienza del parlatore, tuttavia il riscontro di particolari difettifornisce importanti elementi di riconoscimento individuale. Per questo scopo le consonanti più sensibili sono: ‘R’, ‘S’, ‘C’, ‘G’, ‘Z’

3. Esami lessicali Lingua Dialetto Forniscono indicazioni sulla regione linguistica di provenienza del parlatore Terminologia specifica (gergo) Padronanza della lingua Aiutano ad individuare l’ambiente socio-culturale e scolastico-professionale Terminologia preferenziale (ripetizioni) Terminologia personale Forniscono informazioni legate alle abitudini individuali

4. Esami prosodici Inflessione/cadenza Danno indicazioni sulla regione linguistica di provenienza del parlatore Pause (vuote e piene) - Lunghezza consonanti plosive (p,t,k) Sono elementi individuali misurabili strumentalmente Velocità di locuzione E’ il parametro più utile a fini forensi, per misu- rabilità, stabilità e trattabilità statistica

Metodo Linguistico-Fonetico: considerazioni Alcuni parametri sono ‘robusti’ rispetto agli effetti del canale e al rapporto segnale/rumore Richiede giorni per un esame completo E’ complicato creare database Le risposte sono generalmente qualitative, le valutazioni soggettive

db Hz L’orecchio è uno strumento attendibile? GRAFICO DELLA SENSIBILITA’ DELL’ORECCHIO UMANO

La percezione è utile? • Tutti abbiamo forme di percezione • La percezione solitamente è PARZIALE • La verità può essere AMBIGUA • La verità può essere UNIVOCA ma la nostra percezione porta a conclusioni ERRATE

Esempio di realtà AMBIGUA

Esempio di realtà UNIVOCA

Il riconoscimento del parlatore-esami ‘oggettivi’ (Speaker Identification) Produzione della voce

La voce è un suono complesso perché è dato dalla combinazione di tre effetti: • 1. La vibrazione delle corde vocali • (genera la Frequenza Fondamentale) • Il rumore prodotto nella fonazione • 3. Il transito attraverso il tratto vocalico • (genera le Frequenze Formanti)

Modello del filtro lineare

- Il segnale finale è dato dalla CONVOLUZIONE del segnale entrante x(t) con il filtro vocale h(t) g(t)=x(t)h(t) - Lo spettro del segnale finale è dato dal PRODOTTO degli spettri dei segnali x(t) e h(t)

Modello

ESEMPI OPERATIVI Segnale relativo ad una ‘a’ -Spettro- Per essere leggibile, uno spettro necessita dell’ap-plicazione di algoritmi specifici (CEPSTRUM o LPC) che rendano possibile la ricostruzione delle componenti dovute al tratto vocalico

METODI di tipo SEMI - AUTOMATICO (IDEM, SMART, DIALECT, SIVE...) • Sistemi computerizzati che richiedono l’interazione uomo-macchina • Alcune task sono automatiche: • Stima rapporto s/n • Estrazione di parametri (pitch, formanti...) • Modelli matematici intra-interparlatore (GMM, Distances, Matrix...) • Analisi statistiche e decisionali (Tests)

METODI SEMIAUTOMATICI • Attività ‘manuali’ lasciate all’operatore: • Selezione dei tratti da misurare (editing) • Controllo delle misure • (correttezza, selezione delle vocali, deleting...) • Selezione dei parametri decisionali • (livello di confidenza, variabili e database... ) • Controllo finale

Il sistema indica le misurazioni delle risonanze: le FORMANTI

Il sistema consente una rappresentazione bidimensionale delle misure effettuate

Al termine si effettua sia il test di compatibilità (es. c2) che il calcolo della probabilità di falsa identificazione (integrazione Montecarlo)

Equivalenza verbale - LR

Metodi Semiautomatici - considerazioni Questi esami lavorano nel dominio delle frequenze in condizioni di stazionarietà (i.e. F0 e Formanti) Le formanti sono robuste rispetto al canale E’ possibile una ricca trattazione statistica (Lr o P.F.A./P.F.R.) Sono metodi accettati in dibattimento

Metodi semiautomatici europei

Metodi Totalmente automatici Rappresentano le più moderne opportunità Tutti i passi sono automatici: -Estrazione dei parametri -trattamento statistico e catalogazione -calcolo della likelihood ratio L’operatore deve solo: -inserire i tratti di segnale nel sistema -scegliere il database di riferimento

Metodi Totalmente automatici Il segnale, una volta inserito nel sistema, viene processato secondo il seguente schema: - realizzazione di una FFT ogni 10 ms, con finestra di 25-30 ms; -estrazione automatica dei 15-30 coefficienti (MFCC...) per singola ‘frame’; -catalogazione delle misure; -realizzazione del modello intra-speaker; -calcolo della likelihood ratio finale

Metodi Totalmente automatici Il trattamento statistico prevede il computo della LIKELIHOOD RATIO secondo un modello continuo, la soglia è variabile caso per caso.

Metodi Totalmente automatici Lavorano nel campo delle frequenze e del tempo (parametri MFCC e DMFCC) Caratteristiche principali: -velocità -sensibilità al canale -sensibilità al rapporto segnale/rumore -discreta robustezza sulla lingua

Metodi automatici europei

Parte II METODI A CONFRONTO-vincoli-robustezza -velocità-parametri coinvolti-validità in dibattimento-performance

Rapporto segnale/rumore - vincoli

Vincoli sulla durata

Robustezza sul canale

Robustezza sulla lingua(opeatore non madrelingua)

Velocità (comparazione a 2 voci)

L’Indagine Fonica CASI REALI e METODI PER L’ IDENTIFICAZIONE DEL PARLATORE