Aplicações de Processamento de Voz

Aplicações de Processamento de Voz Prof. Marcio Eisencraft

Sumário • Introdução • Modelagem básica • Aplicações: • Geração de fonemas • Reconhecimento de fonemas • Voz sintética • Codificação • Trabalhos presentes e futuros Universidade Presbiteriana Mackenzie

1. Introdução • Processamento de voz é um dos mais importantes instrumentos da era digital. • Exemplos de aplicação: • discagem automática • atendimento automático • auxílio de pessoas deficientes • Segurança • Uma das grandes áreas de pesquisa dentro da Engeharia de Telecomunicações Universidade Presbiteriana Mackenzie

2. Modelagem básica (1/2) • O trato vocal Universidade Presbiteriana Mackenzie

2. Modelagem básica (2/2) Universidade Presbiteriana Mackenzie

3. Aplicações • Geração de fonemas • Reconhecimento de fonemas • Voz sintética • Codificação e compactação Universidade Presbiteriana Mackenzie

3.1 Geração de fonemas • Trato vocal modelado como filtros digitais com atrasos e ganhos. Universidade Presbiteriana Mackenzie

3.2 Reconhecimento de fonemas (1/2) Universidade Presbiteriana Mackenzie

3.2 Reconhecimento de fonemas (2/2) • Formantes e relação entre elas são tabeladas e usadas para identificar vogais e sexo do falante. Universidade Presbiteriana Mackenzie

3.3 Voz sintética • Tendo um banco de dados com os coeficientes para cada fonema, é possível gerar voz sintética. • Problema: sons são vocálicos ou fricativos. Universidade Presbiteriana Mackenzie

3.4 Codificação – Compactação • Coeficientes de predição – LPC • Transmite-se apenas o erro de predição ao invés do próprio sinal • São necessários menos bits para a codificação • Usado, por exemplo, em sistemas de telefonia digital – economia de até 50% na taxa de transmissão. Universidade Presbiteriana Mackenzie

4. Alguns trabalhos atuais e futuros • Eliminação de ruído em voz (videoconferência) • Sincronismo automatizado entre articulação e fala para animações • Reconhecimento de voz em ambientes barulhentos • Novas técnicas de compactação baseadas em percepção auditiva (wavelets) Universidade Presbiteriana Mackenzie

Algumas Referências • PICKETT, J. M. Acoustics Of Speech Communication: Fundamentals, Speech Perception Theory, And Technology. 2. ed. New Jersey: Prentice Hall. 1999. 404 p • RABINER, L.R.; SCHAFER, R. W. Digital Processing of Speech Signals. 7. ed., Prentice Hall. 1978. • STONICK, V. L. Labs for signals and systems: using MATLAB. PWS, c1996. • BURRUS, C. S. et al. Computer-based exercises for signal processing using Matlab 5. Prentice-Hall, c1998. • BEHLAU, M. S.; et al. Análise Espectrográfica de Formantes das vogais do português brasileiro. Revista ACTA AWHO, Volume VII, n. 2, p. 74-85, 1988. • MONTEIRO, M. C. Uma análise espectrográfica das formantes das vogais orais do português brasileiro falado em São Paulo. 1995. 74f. Monografia (Especialização)-Escola Paulista de Medicina, São Paulo, São Paulo, 1995. Universidade Presbiteriana Mackenzie

FIMContato: marcioft@mackenzie.brmeusite.mackenzie.br/marcioft Universidade Presbiteriana Mackenzie

Aplicações de Processamento de Voz