1 / 30

VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala

VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala. Problema. Temos:. Queremos:. (0.179 0.301) v (0.301 0.390) c (0.390 0.440) v (0.440 0.498) c (0.498 0.540) v …. Exemplo de segmentação. Vowel. Cons. Vowel. Marca.

linus
Download Presentation

VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala

  2. Problema Temos: Queremos: (0.179 0.301) v (0.301 0.390) c (0.390 0.440) v (0.440 0.498) c (0.498 0.540) v …

  3. Exemplo de segmentação Vowel. Cons. Vowel Marca

  4. Conjectura das classes rítmicas • Diversos linguistas conjecturaram que as línguas naturais estavam agrupadas num número finito e pequeno de classes rítmicas ( Lloyd James 1940 , Pike 1945, Abercrombie 1967, etc). • Durante meio século não se conseguiu encontrar evidências acústicas que justificassem essa conjectura. • Essas evidências aparecem nos artigos pioneiros de Ramus, Nespor e Mehler (1999), eles utilizam estatísticas simples de amostras de sinais acústicos produzidos por falantes das diversas línguas consideradas.

  5. Ramus, Nespor & Mehler (1999) Para um conjunto de oito línguas e 20 frases por língua, eles segmentam as frases em intervalos vocálicos e consonantais e definem: • %V = proporção de tempo passado em vogais e • Delta C = desvio padrão dos intervalos consonantais

  6. Ramus, Nespor & Mehler (1999)

  7. Segmentação manual É feita baseada na seguinte informação: • Gráfico do sinal acústico • Gráfico do espectrograma • Ouvindo a frase

  8. Dificuldades: • Leva muito tempo • Imprecisões • Muito difícil de ser reproduzida

  9. Sinal acústico e espectrograma

  10. Espectro de Fourier Problema: o sinal acústico de fala é não estacionário

  11. Espectrograma

  12. Regiões regulares

  13. Identificando zonas regulares Observação: • Em intervalos vocálicos, tipicamente, pt e pt+1 são “parecidos”. • Em intervalos consonantais, tipicamente, isto não acontece. Exceções: semi-vogais, nasais...

  14. Classificadores(1) • Entropia relativa: • Distância Euclidiana:

  15. Classificadores(2) • Energia total: • Energia na banda [Fa , Fb]:

  16. Entropia Relativa (japonês)

  17. Entropia Relativa (Frances)

  18. Energia Total

  19. Energia 1000-5000Hz

  20. Exemplos de Regras de Classificação do P.B. • Entropia relativa baixa • Energia total alta • Alta energia na banda [1000,5000] hz alta probabilidade de vogal • Entropia relativa baixa • Baixa energia na banda [1000,5000] hz alta probabilidade de consoante (nasal) • Entropia relativa alta • Alta energia na banda [1000,5000] hz alta probabilidade de consoante

  21. Segmentação: automática vs manual

  22. Resultados Taxa de erro: • Portugueis Brasileiro: 18% • Ingles Britanico: 24% Consideramos que um erro e produzido quando: • a fronteira não é detectada, ou • a fronteira é colocada a uma distância maior do que 10ms da marcação manual O algoritmo esta disponivel na rede no endereço: www.ime.usp.br/~tycho/tipal/prosody/vocale/

  23. Problemas: • Em alguns casos as regras dependem da língua. • As bandas de freqüências a serem utilizadas dependem do sexo do locutor. • Há critérios linguísticos que não podem ser expressos com regras simples deste tipo. Exemplos: r retroflexo, semi-vogais, etc.

  24. Exemplo: Português e Inglês

  25. Função de sonoridade Com o objetivo de evitar as ambigüidades na definição de vogal, definimos a função de sonoridade como: S(t) é uma função com valores perto de 1 nas regiões regulares e perto de 0 nas regiões irregulares.

  26. Uma versão automática de RNM

  27. Resultados com a função de sonoridade

  28. Sonoridade e variação total para cada fonema

  29. Um modelo para a sonoridade

  30. Gráfico de p(0)=P(X(t)=0)

More Related