1 / 31

Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel. Abraham Alcaim CETUC Pontifícia Universidade Católica do Rio de Janeiro SBT’2004 Belém. MOTIVAÇÃO. Crescimento gigantesco da Internet e dos Sistemas de Comunicações Móveis Celulares.

cassia
Download Presentation

Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel Abraham Alcaim CETUC Pontifícia Universidade Católica do Rio de Janeiro SBT’2004 Belém

  2. MOTIVAÇÃO Crescimento gigantesco da Internet e dos Sistemas de Comunicações Móveis Celulares Desenvolvimentos importantes em codificação de voz a baixas taxas Serviços de Reconhecimento Automático de Voz (RAV) Abraham Alcaim – SBT’2004

  3. Codificação de Voz a Baixas Taxas Abraham Alcaim – SBT’2004

  4. Codificação de Voz a Baixas Taxas • Codecs em geral baseados em um modelo LPC aplicado a quadros (segmentos) de voz de curta duração ~ 20 ms • Um filtro só de pólos --- através dos parâmetros LPC --- caracteriza o aparelho vocal • Usualmente transmite-se os parâmetros LSF por serem mais adequados que os LPC para quantização e interpolação {LSF} Aparelho Vocal Abraham Alcaim – SBT’2004

  5. Codificação de Voz a Baixas Taxas em Canal Limpo Alguns Problemas • Bom modelo para • a excitação • Quantização de • seus parâmetros • Bom modelo para • o aparelho vocal • Quantização de • seus parâmetros • Interpolação dos • parâmetros LSF • dentro de cada quadro Abraham Alcaim – SBT’2004

  6. Codificação de Voz a Baixas Taxas Padrões Empregados em Redes Móveis e IP Em geral são codecs do tipo CELP (Code Excited Linear Prediction) Buscam tirar proveito de estruturas especiais dos dicionários para simplificar a busca do melhor vetor-código Exemplos: VSELP (Vector-Sum Excited Linear Prediction) CS-ACELP (Conjugate Structure – Algebraic CELP) Abraham Alcaim – SBT’2004

  7. Alguns Padrões Empregados em Redes Móveis e IP • 1995 : ITU-T G.723.1(MOS~3,98) – 5,3 ou 6,3 kb/s – IP • 1995 : ITU-T G.729 / CS-ACELP (MOS~4,2) – 8 kb/s – IP • 1992 : TIA – IS-54 / VSELP (MOS~3,5) – 8 kb/s – Cel USA TDMA • 1993 : VSELP - Japão (MOS~3,3) – 6,7 kb/s – Cel Japonês TDMA • 1993 : TIA – IS-95 / QCELP (MOS~3,4) – 1 / 2 / 4 / 8 kb/s – Cel USA CDMA • 1995 : TIA – IS-96-A / QCELP – 1,2 / 2,4 / 4,8 / 9,6 kb/s – Cel USA CDMA • 1995 : GSM – HR (Half Rate)/ VSELP (MOS~3,4)– 5,6 kb/s – Cel Europeu TDMA • 1997 : GSM – EFR (Enhanced Full Rate)/ ACELP – 12,2 kb/s – Cel Europeu TDMA • 1997 : TIA – IS-641 (substitui o IS-54) / ACELP – 7,4 kb/s – Cel USA TDMA • 1998 : TIA – IS-733 / QCELP – 1,8 / 3,6 / 7,8 / 14,4 kb/s – Cel USA CDMA • 1998 : TIA – IS-127 EVRC (Enhanced Variable Rate Coder)/ ACELP – • 1,2 / 4,8 / 9,6 kb/s – Cel USA CDMA • 2001 : AMR-WB (Adaptive Multi Rate – Wide Band)/ ACELP – 6,6 / 8,85 / 12,65 / 14,25 / 15,85 / 18,25 / 19,85 / 23,05 / 23,85 kb/s – Cel 3G Europa, Japão, USA, Coréia – WCDMA Abraham Alcaim – SBT’2004

  8. TEXTO Reconhecimento Automático de Voz (RAV) Extração de Atributos da Voz Conversão analógico digital FALA Padrões de referência Classificação de padrões Abraham Alcaim – SBT’2004

  9. Reconhecimento Automático de Voz (RAV) • Baseados em um conjunto de atributos de voz extraídos em quadros (segmentos) de voz de curta duração --- tipicamente a cada 10 ms • Um classificador de padrões --- o HMM, p.ex. --- é projetado a partir de um conjunto de treinamento • Vocabulário: • Pequeno • Médio • Grande • Dependente do Locutor • Independente do Locutor • Palavras Isoladas • Palavras Conectadas • Voz Contínua Abraham Alcaim – SBT’2004

  10. Sistemas de RAV Distribuídos • Grande interesse em disponibilizar serviços de RAV em redes móveis e IP • Alta complexidade e grande quantidade de memória tornam atraentes a opção por sistemas de RAV distribuídos INTERNET REDES MÓVEIS • PC: extrai, codifica e transmite • parâmetros da voz • Servidor Remoto: decodifica • parâmetros e faz o reconhecimento a partir de um classificador de padrões • Tel Celular: extrai, codifica e transmite • parâmetros da voz • Estação-base: decodifica parâmetros • e faz o reconhecimento a partir de um • classificador de padrões Abraham Alcaim – SBT’2004

  11. Sistemas de RAV Distribuídos Processamento no Terminal do Usuário Processamento na Estação-Base ou no Servidor Remoto Dispositivo Local COD de Voz ou de Atributos Rede Móvel ou IP DECOD VOZ Extrator de Atributos Canais com limitação de faixa RAV Operação a baixas taxas de bits Abraham Alcaim – SBT’2004

  12. Reconhecimento de Voz a partir dos Parâmetrosdo Codificador DECOD de Voz Voz Dispositivo Local Rede Móvel ou IP COD de Voz VOZ Extrator de Atributos para Reconhecimento RAV Comandos de Voz SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ Abraham Alcaim – SBT’2004

  13. Reconhecimento de Voz a partirda VozDecodificada Dispositivo Local Rede Móvel ou IP DECOD de Voz COD de Voz Voz VOZ Extrator de Atributos para Reconhecimento Comandos de Voz RAV SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ Abraham Alcaim – SBT’2004

  14. Reconhecimento de Voz a partir da Codificação dos Atributos para Reconhecimento Dispositivo Local Rede Móvel ou IP COD de Atributos DECOD de Atributos VOZ Comandos de Voz RAV SÃO TRANSMITIDOS APENAS OS ATRIBUTOS DO RECONHECEDOR DE VOZ Abraham Alcaim – SBT’2004

  15. Transmissão dos Parâmetros da Voz em Redes Móveis e IP CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE VOZ E NA TAXA DE RECONHECIMENTO Altas taxas de erros de bits Aumento do no. de quadros de voz em um pacote: retardos inaceitáveis Distorções introduzidas pelos codecs a baixa taxa Descasamento entre Treinamento e Operação do reconhecedor de voz Fragilidade dos codecs em ambientes ruidosos como carros, restaurantes, aviões, fábricas, etc Desvanecimento em Sistemas Móveis e Congestionamento em IP: perdas de pacotes em rajadas Abraham Alcaim – SBT’2004

  16. Reconhecimento de Voz a partirda VozDecodificada: Que atributos usar para reconhecimento? Dispositivo Local Rede Móvel ou IP DECOD de Voz COD de Voz Voz Voz VOZ ? Extrator de Atributos para Reconhecimento • Parâmetros da Excitação Quantizados • Parâmetros LSF Quantizados Comandos de Voz RAV SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ Abraham Alcaim – SBT’2004

  17. Reconhecimento de Voz a partirda VozDecodificada: Que atributos usar para reconhecimento? DECOD de Voz Voz Extrator de Atributos para Reconhecimento (1) CC (Cepstral Coefficients) : estimados a partir do espectro suave da voz - Para RAV: melhores que LPC (2) MFCC (Mel-FrequencyCepstral Coefficients) : um dos mais usados em RAV - estimados a partir da voz – (DCT das log-energias nas saídas de filtros triangulares centrados nas freqs. da escala mel) - Mel melhora a taxa de reconhecimento Voz (3) PLP –Cepstrum (Perceptual Linear Predictive - Cepstrum) : também muito usados em RAV - estimados a partir da voz – (usa filtros assimétricos espaçados na escala Bark) – Resultados em geral similares ao Mel, mas inferiores em algumas situações (fones) RAV (4) ZCPA (Zero Crossings with Peak Amplitudes) : DCT de histogramas (por contagem de picos) do inverso de CZs nas saídas de FPFs - Para RAV: mais robustos que MFCC em ruído aditivo Comandos de Voz Abraham Alcaim – SBT’2004

  18. Reconhecimento de Voz a partir dos Parâmetrosdo Codificador: Que atributos usar para reconhecimento? DECOD de Voz Voz Rede Móvel ou IP COD de Voz VOZ ? Extrator de Atributos para Reconhecimento LSFs Quantizados RAV • Parâmetros da Excitação Quantizados • Parâmetros LSF Quantizados Comandos de Voz Abraham Alcaim – SBT’2004

  19. Reconhecimento de Voz a partir dos Parâmetrosdo Codificador: Atributos Extraídos dos Coeficientes LPC DECOD de Voz Voz Extrator de Atributos para Reconhecimento 2 Parâmetros Extraídos a partir dos Coeficientes LPC (1) LPCC (LPC Cepstral Coefficients) ou CEP Para RAV: melhores que as LSF LSF LPC LSFs Quantizados (2) MLPCC ou MCEP (na escala Mel): Para RAV:muito melhores que LPCC RAV Comandos de Voz Abraham Alcaim – SBT’2004

  20. Reconhecimento de Voz a partir dos Parâmetros do Codificador: Atributos Extraídos a partir das LSFs DECOD de Voz Voz Extrator de Atributos para Reconhecimento 4 Parâmetros Extraídos a partir dos Coeficientes LSF mais simples que extraídos a partir de LPC (1) PCC (Pseudo- Cepstral Coefficients): aprox. do LPCC – só que extraído a partir das LSFs, com % de reconhecimento levemente inferior à LPCC LSFs Quantizados LSF L (2) MPCC (na escala Mel): muito melhor que PCC e comparável à MLPCC RAV Comandos de Voz Abraham Alcaim – SBT’2004

  21. Reconhecimento de Voz a partir dos Parâmetrosdo Codificador: Atributos Extraídos a partir das LSFs DECOD de Voz Voz Extrator de Atributos para Reconhecimento 4 Parâmetros Extraídos a partir dos Coeficientes LSF (3) PCEP (Pseudo- Cepstrum): aprox. matemática do LPCC um pouco pior que a do PCC – porém, com % de reconhecimento comparável ao PCC (resultado ainda não disponível na literatura) e menor complexidade LSF LSFs Quantizados L (4) MPCEP (na escala Mel): muito melhor que PCEP , melhor que MFCC e comparável ao MLPCC e ao MPCC (resultado ainda não disponível na literatura) RAV Comandos de Voz Abraham Alcaim – SBT’2004

  22. Transmissão dos Parâmetros da Voz em Redes Móveis e IP CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE VOZ E NA TAXA DE RECONHECIMENTO Uma delas Resulta do Desvanecimento em Sistemas Móveis e do Congestionamento em IP: perdas de pacotes em rajadas Abraham Alcaim – SBT’2004

  23. Transmissão dos Parâmetros da Voz em Redes Móveis e IP Característica de rajadas do processo de perdas  Modelo Markoviano de 2 estados: “Modelo de Gilbert” p = P[“packet received”“packet lost”] q = P[“packet lost”“packet received”] Packet Loss Rate: • Comprimeno da Rajada B= 1/(1-clp) • onde clp = 1-q PLR = p/(p+q) Abraham Alcaim – SBT’2004

  24. Transmissão dos Parâmetros da Voz em Redes Móveis e IP Algumas referências de Modelos de Gilbert para simular diferentes condições de redes #1[J. Wang and J. Gibson, “Parameter interpolation to enhance the frame erasure robustness of CELP coders in packet networks”, Proc. ICASSP 2001]. #2 [D. Quercia, L. Docio-Ferandez, C.Garcia-Mateo, L. Farinetti and J. C. De Martin, “Performance analysis of distributed speech recognition over IP networks on the AURORA database”, Proc. ICASSP 2002]. #3 as in [D. Rahikka, J. Collura, T. Fuja, D. Sridhara and T. Fazel, “Error coding strategies for MELP vocoder in wireless and ATM environments”, Proc. IEE Seminar on Speech Coding for Algorithms for Radio Channels, pp. 8/1-8/6, 2000]. Abraham Alcaim – SBT’2004

  25. Alguns Resultados e Questões de Interesse Afeta não só a qualidade da voz como o desempenho do reconhecedor A distorção espectral dos parâmetros LSF é função da estratégia de quantização adotada e da taxa de perdas de pacotes Como projetar um bom quantizador de modo que nessas situações os desempenhos sejam pouco afetados ? Abraham Alcaim – SBT’2004

  26. Alguns Resultados e Questões de Interesse Em RAV distribuído, extrair os atributos para reconhecimento dos parâmetros recebidos do codificador de voz fornece taxas de reconhecimento maiores do que extrair esses atributos a partir da voz decodificada Mas será que, se a voz foi obtida em ambiente ruidoso, extrair os parâmetros ZCPA da voz decodificada não será melhor do que extrair outros atributos a partir dos parâmetros recebidos do codificador ? Abraham Alcaim – SBT’2004

  27. Alguns Resultados e Questões de Interesse SOLUÇÃO • Os codecs de voz usados em redes móveis • e IP extraem os parâmetros que caracterizam a evolução da envoltória espectral a cada 20 a 30 ms. • Porém os sistemas de reconhecimento usualmente requerem extração de atributos acústicos tipicamente a cada 10 ms Interpolar linearmente os parâmetros a partir do que foi recebido do codificador Mas que parâmetros e como interpolar ? LSF ? MPCEP ? Outros ? MLPCC ? MFCC ? Abraham Alcaim – SBT’2004

  28. Alguns Resultados e Questões de Interesse Reconhecedor CDHMM para seqüências de dígitos AlgumasExperiências com Reconhecimento de Voz Distribuído operando na Internet Mesmo taxas relativamente altas de perdas de pacotes isolados não afetam de forma muito significativa o desempenho do reconhecedor se usarmos a técnica de repetição Perdas em rajadas acentuadas, como pode acontecer na Internet, causam resultados desastrosos Abraham Alcaim – SBT’2004

  29. Alguns Resultados e Questões de Interesse SOLUÇÃO Em geral, as perdas de pacotes em rajadas em redes móveis e IP afetam muito o desempenho do sistema de reconhecimento Também interpolar linearmente os parâmetros a partir do que foi recebido do codificador Novamente que parâmetros e como interpolar ? LSF ? MPCEP ? Outros ? MLPCC ? MFCC ? Abraham Alcaim – SBT’2004

  30. Alguns Resultados e Questões de Interesse Fragilidade dos codecs em ambientes ruidosos como carros, restaurantes, aviões, fábricas, etc Péssimo desempenho dos sistemas de reconhecimento Melhoras significativas na taxa de reconhecimento através do emprego de técnicas de realce de voz Mas que técnicas usar para o reconhecimento de voz em um cenário que envolve um grande número de condições adversas? Distorções originais dos codecs a baixas taxas Descasamento entre treino e operação dos reconhecedores Perdas de pacotes em rajadas Outros Problemas Abraham Alcaim – SBT’2004

  31. ?

More Related