810 likes | 989 Views
L’Indagine Fonica CASI REALI e METODI PER L’ IDENTIFICAZIONE DEL PARLATORE. Magg. Davide Zavattaro Soriano nel Cimino, 21.09.07 . PARTE I Il riconoscimento del parlatore. Il riconoscimento del parlatore (Speaker Identification). L'importanza del riconoscimento del parlatore
E N D
L’Indagine Fonica CASI REALI e METODI PER L’ IDENTIFICAZIONE DEL PARLATORE Magg. Davide Zavattaro Soriano nel Cimino, 21.09.07
PARTE I Il riconoscimento del parlatore
Il riconoscimento del parlatore (Speaker Identification) L'importanza del riconoscimento del parlatore deriva dal tipo di reato che tipicamente si commette con l'impiego della voce Rapimenti Estorsioni Droga Rivendicazioni di Attentati Molestie Ingiurie
Provenienza reperti: • Attività di intercettazione di P.G. ai sensi dell’art. 266 c.p.p. • Registrazioni ordinarie di Enti Istituzionali o privati (es. 117, 118, Aeroporti…) • Denuncia di privati cittadini
Essendo la natura dell’esame tipicamente comparativa, è necessario disporre di idoneo materiale di confronto: Conversazioni/telefonate di sicura provenienza e attribuzione oppure Si procede all’acquisizione di un saggio fonico
Acquisizione del saggio fonico • Il soggetto deve essere iscritto nel registro degli indagati • L’avvocato deve essere invitato a presenziare • Le apparecchiature di acquisizione devono essere simili a quelle utilizzate per registrare la voce anonima • Preventivamente bisogna stilare un testo contenente le frasi pronunciate dall’anonimo
Acquisizione del saggio fonico • FASE 1: Colloquio introduttivo con richiesta generalità • FASE 2: L’indagato deve ripetere le frasi contenute nel testo, sotto dettatura • FASE 3: Colloquio informale con l’indagato Al termine: Redazione del verbale
PRINCIPALI PROBLEMI NELL’ANALISI DELLE VOCI: • Microvariabilità temporale della voce • Variabilità di lungo termine • Trattazione matematica dei dati • Effetti del canale di trasmissione • Disturbi (rapporto s/n) • Quantità del materiale anonimo • Disponibilità del materiale di riferimento/saggio fonico
Il processo di produzione fonatorio crea due categorie di ‘reperti’ utili alle indagini… LA VOCE IL MESSAGGIO
…ne derivano due filoni metodologici per l’identificazione : ANALISI FONETICO-LINGUISTICHE (soggettive, qualitative) - fonetiche, lessicali, prosodiche… ANALISI STRUMENTALI (oggettive, quantitative) -analisi delle frequenze prodotte nella fonazione (vibrazione corde vocali e frequenze di risonanza del cavo orale)
Gli esami linguistici: • Sono stabili rispetto al canale • Sono robusti rispetto al rapporto segnale/rumore • Possono fornire un quadro particolareggiato • ma • Richiedono grandi quantità di materiale • Prevedono che si tratti della stessa lingua • Sono qualitativi
Gli esami strumentali • Sono oggettivi (misure delle frequenze sonore emesse) • Richiedono una quantità minimale di segnale utile (circa 12 secondi). • Consentono un’elaborazione statistica dei dati fornendo gli elementi indispensabili per i processi decisionali. • Ma • Sono condizionati dalla qualità del segnale (rapporto s/n) • Gli esiti delle analisi attuali si aggirano su valori di p.f.i. che oscillano, nei riconoscimenti positivi, tra 10-2 e 10-4.
La SOLUZIONE è cercare un’integrazione tra più metodologie La difficoltà principale è riconoscere le aree di sovrapposizione (parametri indipendenti) e rendere quantitativi gli esami linguistico-fonetici
Nel mondo sono tipicamente impiegati 3 metodi per il riconoscimento del parlatore • Linguistico-fonetico • Semi-automatico • Totalmente automatico
Metodo Linguistico-Fonetico Storicamente è stato il primo ad apparire Richiede un notevole background di carattere fonetico E’ fortemente dipendente dalla lingua Richiede grandi quantità di materiale audio
Metodo Linguistico-Fonetico Le analisi si dividono in: 1. Prove d’ascolto 2. Esami fonetici 3. Esami lessicali 4. Esami prosodici
1. Prove d’ascolto Sono basate sulla memoria a breve termine Si costruisce un file, contenente sia le frasi anonime che le medesime pronunciate dal sospettato, poi si procede all’ascolto, ripetendo l’operazione in tempi diversi
2.Esami fonetici Si ricercano gli elementi caratterizzanti che differiscono dalla pronuncia corretta nazionale ES. TRE tré, trè, tce... ES. NOVE nòve, nóve… L’insieme dei risultati darà indicazioni sulla regione linguistica di provenienza del parlatore, tuttavia il riscontro di particolari difettifornisce importanti elementi di riconoscimento individuale. Per questo scopo le consonanti più sensibili sono: ‘R’, ‘S’, ‘C’, ‘G’, ‘Z’
3. Esami lessicali Lingua Dialetto Forniscono indicazioni sulla regione linguistica di provenienza del parlatore Terminologia specifica (gergo) Padronanza della lingua Aiutano ad individuare l’ambiente socio-culturale e scolastico-professionale Terminologia preferenziale (ripetizioni) Terminologia personale Forniscono informazioni legate alle abitudini individuali
4. Esami prosodici Inflessione/cadenza Danno indicazioni sulla regione linguistica di provenienza del parlatore Pause (vuote e piene) - Lunghezza consonanti plosive (p,t,k) Sono elementi individuali misurabili strumentalmente Velocità di locuzione E’ il parametro più utile a fini forensi, per misu- rabilità, stabilità e trattabilità statistica
Metodo Linguistico-Fonetico: considerazioni Alcuni parametri sono ‘robusti’ rispetto agli effetti del canale e al rapporto segnale/rumore Richiede giorni per un esame completo E’ complicato creare database Le risposte sono generalmente qualitative, le valutazioni soggettive
db Hz L’orecchio è uno strumento attendibile? GRAFICO DELLA SENSIBILITA’ DELL’ORECCHIO UMANO
La percezione è utile? • Tutti abbiamo forme di percezione • La percezione solitamente è PARZIALE • La verità può essere AMBIGUA • La verità può essere UNIVOCA ma la nostra percezione porta a conclusioni ERRATE
Il riconoscimento del parlatore-esami ‘oggettivi’ (Speaker Identification) Produzione della voce
La voce è un suono complesso perché è dato dalla combinazione di tre effetti: • 1. La vibrazione delle corde vocali • (genera la Frequenza Fondamentale) • Il rumore prodotto nella fonazione • 3. Il transito attraverso il tratto vocalico • (genera le Frequenze Formanti)
- Il segnale finale è dato dalla CONVOLUZIONE del segnale entrante x(t) con il filtro vocale h(t) g(t)=x(t)h(t) - Lo spettro del segnale finale è dato dal PRODOTTO degli spettri dei segnali x(t) e h(t)
ESEMPI OPERATIVI Segnale relativo ad una ‘a’ -Spettro- Per essere leggibile, uno spettro necessita dell’ap-plicazione di algoritmi specifici (CEPSTRUM o LPC) che rendano possibile la ricostruzione delle componenti dovute al tratto vocalico
METODI di tipo SEMI - AUTOMATICO (IDEM, SMART, DIALECT, SIVE...) • Sistemi computerizzati che richiedono l’interazione uomo-macchina • Alcune task sono automatiche: • Stima rapporto s/n • Estrazione di parametri (pitch, formanti...) • Modelli matematici intra-interparlatore (GMM, Distances, Matrix...) • Analisi statistiche e decisionali (Tests)
METODI SEMIAUTOMATICI • Attività ‘manuali’ lasciate all’operatore: • Selezione dei tratti da misurare (editing) • Controllo delle misure • (correttezza, selezione delle vocali, deleting...) • Selezione dei parametri decisionali • (livello di confidenza, variabili e database... ) • Controllo finale
Il sistema indica le misurazioni delle risonanze: le FORMANTI
Il sistema consente una rappresentazione bidimensionale delle misure effettuate
Al termine si effettua sia il test di compatibilità (es. c2) che il calcolo della probabilità di falsa identificazione (integrazione Montecarlo)
Metodi Semiautomatici - considerazioni Questi esami lavorano nel dominio delle frequenze in condizioni di stazionarietà (i.e. F0 e Formanti) Le formanti sono robuste rispetto al canale E’ possibile una ricca trattazione statistica (Lr o P.F.A./P.F.R.) Sono metodi accettati in dibattimento
Metodi Totalmente automatici Rappresentano le più moderne opportunità Tutti i passi sono automatici: -Estrazione dei parametri -trattamento statistico e catalogazione -calcolo della likelihood ratio L’operatore deve solo: -inserire i tratti di segnale nel sistema -scegliere il database di riferimento
Metodi Totalmente automatici Il segnale, una volta inserito nel sistema, viene processato secondo il seguente schema: - realizzazione di una FFT ogni 10 ms, con finestra di 25-30 ms; -estrazione automatica dei 15-30 coefficienti (MFCC...) per singola ‘frame’; -catalogazione delle misure; -realizzazione del modello intra-speaker; -calcolo della likelihood ratio finale
Metodi Totalmente automatici Il trattamento statistico prevede il computo della LIKELIHOOD RATIO secondo un modello continuo, la soglia è variabile caso per caso.
Metodi Totalmente automatici Lavorano nel campo delle frequenze e del tempo (parametri MFCC e DMFCC) Caratteristiche principali: -velocità -sensibilità al canale -sensibilità al rapporto segnale/rumore -discreta robustezza sulla lingua
Parte II METODI A CONFRONTO-vincoli-robustezza -velocità-parametri coinvolti-validità in dibattimento-performance