300 likes | 406 Views
VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala. Problema. Temos:. Queremos:. (0.179 0.301) v (0.301 0.390) c (0.390 0.440) v (0.440 0.498) c (0.498 0.540) v …. Exemplo de segmentação. Vowel. Cons. Vowel. Marca.
E N D
VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala
Problema Temos: Queremos: (0.179 0.301) v (0.301 0.390) c (0.390 0.440) v (0.440 0.498) c (0.498 0.540) v …
Exemplo de segmentação Vowel. Cons. Vowel Marca
Conjectura das classes rítmicas • Diversos linguistas conjecturaram que as línguas naturais estavam agrupadas num número finito e pequeno de classes rítmicas ( Lloyd James 1940 , Pike 1945, Abercrombie 1967, etc). • Durante meio século não se conseguiu encontrar evidências acústicas que justificassem essa conjectura. • Essas evidências aparecem nos artigos pioneiros de Ramus, Nespor e Mehler (1999), eles utilizam estatísticas simples de amostras de sinais acústicos produzidos por falantes das diversas línguas consideradas.
Ramus, Nespor & Mehler (1999) Para um conjunto de oito línguas e 20 frases por língua, eles segmentam as frases em intervalos vocálicos e consonantais e definem: • %V = proporção de tempo passado em vogais e • Delta C = desvio padrão dos intervalos consonantais
Segmentação manual É feita baseada na seguinte informação: • Gráfico do sinal acústico • Gráfico do espectrograma • Ouvindo a frase
Dificuldades: • Leva muito tempo • Imprecisões • Muito difícil de ser reproduzida
Espectro de Fourier Problema: o sinal acústico de fala é não estacionário
Identificando zonas regulares Observação: • Em intervalos vocálicos, tipicamente, pt e pt+1 são “parecidos”. • Em intervalos consonantais, tipicamente, isto não acontece. Exceções: semi-vogais, nasais...
Classificadores(1) • Entropia relativa: • Distância Euclidiana:
Classificadores(2) • Energia total: • Energia na banda [Fa , Fb]:
Exemplos de Regras de Classificação do P.B. • Entropia relativa baixa • Energia total alta • Alta energia na banda [1000,5000] hz alta probabilidade de vogal • Entropia relativa baixa • Baixa energia na banda [1000,5000] hz alta probabilidade de consoante (nasal) • Entropia relativa alta • Alta energia na banda [1000,5000] hz alta probabilidade de consoante
Resultados Taxa de erro: • Portugueis Brasileiro: 18% • Ingles Britanico: 24% Consideramos que um erro e produzido quando: • a fronteira não é detectada, ou • a fronteira é colocada a uma distância maior do que 10ms da marcação manual O algoritmo esta disponivel na rede no endereço: www.ime.usp.br/~tycho/tipal/prosody/vocale/
Problemas: • Em alguns casos as regras dependem da língua. • As bandas de freqüências a serem utilizadas dependem do sexo do locutor. • Há critérios linguísticos que não podem ser expressos com regras simples deste tipo. Exemplos: r retroflexo, semi-vogais, etc.
Função de sonoridade Com o objetivo de evitar as ambigüidades na definição de vogal, definimos a função de sonoridade como: S(t) é uma função com valores perto de 1 nas regiões regulares e perto de 0 nas regiões irregulares.