1 / 18

Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Estado da Arte Anderson Gomes ags@cin.ufpe.br. Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz. Principais Empresas e Centros de Pesquisa. Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology. Google.

Download Presentation

Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Estado da Arte Anderson Gomes ags@cin.ufpe.br Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

  2. Principais Empresas e Centros de Pesquisa • Google • Darpa • IBM • Philips • Nuance • INESC • UFRJ • UCS • Nagoya InstituteofTechnology

  3. Google • Possui um grupo de pesquisa de voz • GAudi • Sistema de reconhecimento de voz • Utilizado para indexar palavras faladas em vídeos • Restringe-se a política • Vocabulário será ampliado • Mudar o “modo” de se fazer uma pesquisa

  4. DARPA • Grupo de pesquisa de voz • Sistema de tradução entre diversas línguas para uso militar • Não realiza transcrição

  5. IBM • Possui um grupo de pesquisa de voz • ViaVoice • Reconhece uma única Voz • Sisi • Transforma a voz do usuário em sinais para comunicação com deficientes auditivos • Avatares representam os sinais • Fortes avanços no desenvolvimento de um sistema de reconhecimento de voz audio-visual

  6. Philips • Speech Magic • Softwares e hardwares • Reconhece uma única Voz • Speech SDK • Reconhece uma única Voz • SDK para ser usada no desenvolvimento de outros softwares

  7. Nuance - Dragon Systems • DragonNaturallySpeaking • Reconhece uma única voz

  8. INESC-ID • TECNOVOZ • Amplo projeto envolvendo algumas empresas e universidades • Abrange vários projetos, inclusive transcrição e legendagem automática • O INESC-ID é responsável pelo módulo de conversão fala-texto, além de outros

  9. UFRJ • Implementação de um LVCSR para o português brasileiro • Rafael Teruszkin • Fernando Gil Vianna Resende Junior

  10. UCS • BRAVOZ – Reconhecimento de voz com suporte a grandes vocabulários (LVCSR) para o português brasileiro • Verônica Feldkircher • Vanessa Davanzo • André Gustavo Adami (orientador)

  11. Nagoya InstituteofTechnology • Julius • Software open source de reconhecimento de voz • Japonês • Pode ser integrado a outras línguas

  12. Arquitetura Speech input Featurevector Recognizedsentence Spectralanalysis Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics

  13. Arquitetura – Primeiro passo • Spectralanalysis • Retorna o vetor das características do sinal de voz Speech input Featurevector Spectralanalysis

  14. Arquitetura – Segundo passo • Junção de duas partes: • World-level match • Sentence-level match Word-level match Sentence-level match

  15. Arquitetura – Segundo passo • Word-level match: • Conjunto de subpalavrasHMMs • Forma léxica das palavras • Criação de conjunto de modelo de palavras HMMs Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics

  16. Arquitetura – Segundo passo • Sentence-levelmatch: • Word grammar (syntax) • Semantics • Composição de um modelo de linguagem FSN Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics

  17. Arquitetura – Segundo passo • Integração do word-level match e do sentence-level match • LevelBuilding (LB) algorithm • Exemplo de integração de uma gramática FSN em um algoritmo LB

  18. Arquitetura • Após a integração dos módulos de word-level match e sentence-level match é formada a sentença reconhecida Recognizedsentence Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics

More Related