160 likes | 481 Views
UNIVERSITA’ DEGLI STUDI DI GENOVA. Corso di Laurea in Ingegneria Elettronica STUDIO E REALIZZAZIONE DI TECNICHE PER IL RICONOSCIMENTO VOCALE Relatore : Prof. Francesco Curatelli Studente : Lorenzo Banderali. Università degli Studi di Genova – Facoltà di Ingegneria.
E N D
UNIVERSITA’ DEGLI STUDI DI GENOVA Corso di Laurea in Ingegneria Elettronica STUDIO E REALIZZAZIONE DI TECNICHE PER IL RICONOSCIMENTO VOCALE Relatore : Prof. Francesco Curatelli Studente : Lorenzo Banderali
Università degli Studi di Genova – Facoltà di Ingegneria MOTIVAZIONI • I sistemi di riconoscimento vocale sono sempre più diffusi ed importanti. Possono essere impiegati in: - Telefonia mobile - Stazioni telefoniche - Refertazione automatica - Interazione facilitata uomo-macchina
Università degli Studi di Genova – Facoltà di Ingegneria ACQUISIZIONE • E’ necessario acquisire il segnale vocale e trasformarlo in un segnale tempo discreto tramite un appropriato campionamento
MODELLO PLP • Il modello PLP simula la percezione dell’udito umano e stima con accuratezza i parametri del parlato in modo veloce
Università degli Studi di Genova – Facoltà di Ingegneria MEMORIA ASSOCIATIVA • Associa i parametri del parlato ottenuti con il modello PLP ad un set predefinito di caratteristiche • Adatta per una rappresentazione vettoriale dei dati • Rende possibile il riconoscimento della forma d’onda
Università degli Studi di Genova – Facoltà di Ingegneria SISTEMA DI RICONOSCIMENTO • Fase di Apprendimento (training) • Analisi del segnale vocale per ogni frame • Costruzione database con i vettori PLP • Fase di riconoscimento • Analisi del segnale vocale (PLP) • Calcolo score rispetto al database di training • Stima parola con algoritmo DTW
Università degli Studi di Genova – Facoltà di Ingegneria OBIETTIVI • Rendere il sistema di riconoscimento più rapido e meno costoso • Mettere a punto un sistema software che permetta di minimizzare i tempi di calcolo senza provocare un significativo peggioramento del risultato finale
Università degli Studi di Genova – Facoltà di Ingegneria OTTIMIZZAZIONE • Riduzione del file di training - Algoritmo di Lloyd - Algoritmo K-Means - Disattivazione
Lloyd & K-Means • Si muovono ripetitivamente tutti i valori di riferimento alla media del loro Voronoi set (L) o considerando il punto vincitore (K) • Il riferimento si posiziona come un centroide per un insieme di punti
DISATTIVAZIONE • Elimina i punti “sparsi” attratti più da altre classi che da quella di appartenenza • Può essere effettuata prima o dopo la riduzione tramite Lloyd & K-Means • Riduce ulteriormente il file di training
DIAGRAMMA DI VORONOI • Permette di dividere il piano assegnando a ciascun punto il seme più vicino
Università degli Studi di Genova – Facoltà di Ingegneria PROVE EFFETTUATE • Utilizzo di un database di registrazioni composto da parole pronunciate da differenti parlatori in più sessioni • Addestramento con files di training completi e ridotti • Riconoscimento di parole dello stesso o di altri parlatori nelle varie sessioni
Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI RiduzioneLloyd enessuna disattivazione ulteriore (XV)
Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI Riduzione Lloyd edisattivazione ulteriore (XV V*)
Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI Riduzione Lloyd edisattivazione ulteriore (XX* V)
Università degli Studi di Genova – Facoltà di Ingegneria CONCLUSIONI • Significativa riduzione dei file di training • Diminuzione dei tempi di esecuzione del programma di riconoscimento “Spear” • Pochi errori nel riconoscimento delle parole