1 / 16

UNIVERSITA’ DEGLI STUDI DI GENOVA

UNIVERSITA’ DEGLI STUDI DI GENOVA. Corso di Laurea in Ingegneria Elettronica STUDIO E REALIZZAZIONE DI TECNICHE PER IL RICONOSCIMENTO VOCALE Relatore : Prof. Francesco Curatelli Studente : Lorenzo Banderali. Università degli Studi di Genova – Facoltà di Ingegneria.

cece
Download Presentation

UNIVERSITA’ DEGLI STUDI DI GENOVA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UNIVERSITA’ DEGLI STUDI DI GENOVA Corso di Laurea in Ingegneria Elettronica STUDIO E REALIZZAZIONE DI TECNICHE PER IL RICONOSCIMENTO VOCALE Relatore : Prof. Francesco Curatelli Studente : Lorenzo Banderali

  2. Università degli Studi di Genova – Facoltà di Ingegneria MOTIVAZIONI • I sistemi di riconoscimento vocale sono sempre più diffusi ed importanti. Possono essere impiegati in: - Telefonia mobile - Stazioni telefoniche - Refertazione automatica - Interazione facilitata uomo-macchina

  3. Università degli Studi di Genova – Facoltà di Ingegneria ACQUISIZIONE • E’ necessario acquisire il segnale vocale e trasformarlo in un segnale tempo discreto tramite un appropriato campionamento

  4. MODELLO PLP • Il modello PLP simula la percezione dell’udito umano e stima con accuratezza i parametri del parlato in modo veloce

  5. Università degli Studi di Genova – Facoltà di Ingegneria MEMORIA ASSOCIATIVA • Associa i parametri del parlato ottenuti con il modello PLP ad un set predefinito di caratteristiche • Adatta per una rappresentazione vettoriale dei dati • Rende possibile il riconoscimento della forma d’onda

  6. Università degli Studi di Genova – Facoltà di Ingegneria SISTEMA DI RICONOSCIMENTO • Fase di Apprendimento (training) • Analisi del segnale vocale per ogni frame • Costruzione database con i vettori PLP • Fase di riconoscimento • Analisi del segnale vocale (PLP) • Calcolo score rispetto al database di training • Stima parola con algoritmo DTW

  7. Università degli Studi di Genova – Facoltà di Ingegneria OBIETTIVI • Rendere il sistema di riconoscimento più rapido e meno costoso • Mettere a punto un sistema software che permetta di minimizzare i tempi di calcolo senza provocare un significativo peggioramento del risultato finale

  8. Università degli Studi di Genova – Facoltà di Ingegneria OTTIMIZZAZIONE • Riduzione del file di training - Algoritmo di Lloyd - Algoritmo K-Means - Disattivazione

  9. Lloyd & K-Means • Si muovono ripetitivamente tutti i valori di riferimento alla media del loro Voronoi set (L) o considerando il punto vincitore (K) • Il riferimento si posiziona come un centroide per un insieme di punti

  10. DISATTIVAZIONE • Elimina i punti “sparsi” attratti più da altre classi che da quella di appartenenza • Può essere effettuata prima o dopo la riduzione tramite Lloyd & K-Means • Riduce ulteriormente il file di training

  11. DIAGRAMMA DI VORONOI • Permette di dividere il piano assegnando a ciascun punto il seme più vicino

  12. Università degli Studi di Genova – Facoltà di Ingegneria PROVE EFFETTUATE • Utilizzo di un database di registrazioni composto da parole pronunciate da differenti parlatori in più sessioni • Addestramento con files di training completi e ridotti • Riconoscimento di parole dello stesso o di altri parlatori nelle varie sessioni

  13. Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI RiduzioneLloyd enessuna disattivazione ulteriore (XV)

  14. Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI Riduzione Lloyd edisattivazione ulteriore (XV V*)

  15. Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI Riduzione Lloyd edisattivazione ulteriore (XX* V)

  16. Università degli Studi di Genova – Facoltà di Ingegneria CONCLUSIONI • Significativa riduzione dei file di training • Diminuzione dei tempi di esecuzione del programma di riconoscimento “Spear” • Pochi errori nel riconoscimento delle parole

More Related