1 / 10

Voicebox

Voicebox. Speech processing toolbox for MATLAB André Palhares. Vector Distance - disteusq. Calcula a distância euclidiana , quadrado da euclidiana ou de mahanalobis entre matrizes D=disteusq(X,Y,MODE,W) X,Y são matrizes com mesmo número de colunas MODE é uma string

cher
Download Presentation

Voicebox

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Voicebox Speech processing toolbox for MATLAB André Palhares

  2. Vector Distance - disteusq • Calcula a distânciaeuclidiana, quadradodaeuclidianaou de mahanalobis entre matrizes • D=disteusq(X,Y,MODE,W) • X,Y são matrizes com mesmo número de colunas • MODE é uma string • ‘x’: distância entre cada uma das linhas de X e Y • ‘d’: distância entre linhas correspondentes • ‘s‘: tira a raiz quadrada de modo a obter a distância euclidiana • W é opcional e utilizado como peso pra distância • Se MODE = ‘x’, retorna uma matriz com as distâncias • Se MODE = ‘d’, o retorno é um vetor coluna

  3. Speech Analysis - enframe • Divide o sinal em frames, um por linha da matriz de saída • F = ENFRAME(X,LEN) • Cada frame fica com tamanho LEN e ocupa uma linha de F • F = ENFRAME(X,LEN,INC) • Cada frame começa a distancia INC do inicio do frame anterior

  4. Speech Analysis – fram2wav • Converte frames em waveforms contínuos, usando algum método de interpolação • [w,s]=fram2wav(x,tt,mode) • Entradas • x(nf, p) – sinal de entrada, um frame por linha • tt(nf, 3) – serve para específicar quais frames exatamente se quer interpolar • mode – l pra interpolação linear, z para zero-order hold interpolation • Saídas • w(n,p) • s(ns, 2)

  5. Speech Analysis – ewgrpdel • Calcula a energy weighted group delay waveform – para cada sample de entrada, essa rotina calcula o delay entre tal amostra e o centro de gravidade de uma janela centrada na amostra • [y,mm]=ewgrpdel(x,w,m) • x – sinal de entrada • w – a janela ou o tamanho da janela • m – onde fica o centro da janela (no meio, como default) • y – o waveform gerado • mm – o m utilizado no cálculo

  6. Speech Analysis – activlev • Mede o level ativo do sinal, de acordo com a recomendação P.56 da ITU-T • [lev,af,fso]=activlev(sp,fs,mode) • sp – sinal de entrada • fs – frequencia de amostragem • mode: • ‘r’ – omitir todos os filtros (padrao é 200 Hz até 5.5 kHz) • ‘0’ – não usar filtro passa alta (inclui DC) • ‘4’ – usa filtro passa alta em 40 Hz • ‘1’ – usa filtro de chebyschev de ordem 1 • ‘2’ – usa filtro de chebyschev de ordem 2 (default) • ‘e’ – usa filtro elíptico • ‘h’ – omitir filtro passa baixa em 5.5 kHz • ‘d’ – saída e dB • Saídas • lev – level do sinal • af – duty cycle do sinal • fso – vetor com informações adicionais do sinal

  7. Speech Analysis – spgrambw • Exibe o spectrograma do sinal em escala de cinza • [tt,f,b]=spgrambw(data,fs,bw,fmax)

  8. Speech Analysis – txalign • Encontra o melhor alinhamento entre dois conjuntos de marcadores de tempo • [kx,ky,nxy,mxy,sxy]=txalign(X,Y,MAXT) • X e Y são vetores de tempo. O alinhamento tenta minimizar (X-Y)^2 com uma penalidade de MAXT^2 para cada par de entradas que não alinhem • Saídas: • nxy – número de alinhamentos obtidos • mxy – média das distancias do alinhamento • sxy – desvio padrão das distancias do alinhamento • kx – vetor do mesmo tamanho de X. kx(i) = j se X(i) alinhou com Y(j). Se não, kx(i) = 0. • Ky – idem em relação a Y

  9. Speech Analysis – soundspeed • Retorna a velocidade do som no ar, em função da temperatura • v=soundspeed(t,m,g) • t – temperatura do ar em celsius • m – peso molecular médio do ar • g – constante adiabática do ar • v – velocidade do som

  10. Voicebox Parameters and System Interface - voicebox • Usadoparasetarparâmetrosglobais do voicebox • y=voicebox(f,v) • f é o nome de algum campo a ser setado • v é o novo valor que tal campo vai assumir • y é o valor do campo atualmente, se nenhum valor novo for passado como parâmetro. Se f e v forem ambos passados ou não, y recebe a estrutura dos parâmetros atual • Entre os campos que podem ser setados, temos: • PP.dir_temp - localização de dados temporários • PP.dir_data - localizaçao de dados • PP.shorten - localização do executavel shorten • PP.sfsbin – localizaçao dos executaveis sfs • PP.sfssuffix – sufixo dos executaveis sfs

More Related