1 / 18

Alejandro Bassi A. Universidad de Chile Departamento de Ciencias de la Computación

Codificación bidimensional de patrones vocales mediante un esquema de reducción dimensional basado en redes neuronales. Alejandro Bassi A. Universidad de Chile Departamento de Ciencias de la Computación abassi@dcc.uchile.cl. Caracterización fonética del timbre.

amadis
Download Presentation

Alejandro Bassi A. Universidad de Chile Departamento de Ciencias de la Computación

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Codificación bidimensional de patrones vocales mediante un esquema de reducción dimensional basado en redes neuronales Alejandro Bassi A. Universidad de Chile Departamento de Ciencias de la Computación abassi@dcc.uchile.cl

  2. Caracterización fonética del timbre • oído interno descompone en frecuencias • escala no lineal • lo importante es la envolvente del espectro

  3. Caracterización articulatoria del habla • bastan dos dimensiones

  4. Relación articulación/timbre • posición de "formantes"

  5. Codificación de la envolvente del espectro • cepstrum • reducción dimensional: • lineal (componentes principales) • no lineal (redes neuronales) • calidad de la reconstrucción

  6. Reconstrucción lineal (2D)

  7. Reconstrucción lineal (3D)

  8. Reconstrucción lineal (4D)

  9. Reducción dimensional con redes neuronales • estructura codificador/decodificador • entrenamiento autoasociativo • decodificador basado en composición gausiana

  10. Codificación inicial

  11. Codificación final

  12. Reconstrucción (diptongos)

  13. Posición de formantes

  14. Reconstrucción (palabra: "cuatro")

  15. Reconstrucción (otra palabra: "nueve")

  16. Reconstrucción (diptongos, otro hablante)

  17. Comparación entre hablantes

  18. Conclusiones • buena reconstrucción (visualización) • reducción dimensional / seguimiento formantescontexto general / contexto local • Reconocimiento de patrones (TDW, HMM) • ¿varios hablantes? • normalización del "triángulo"

More Related