180 likes | 303 Views
Estado da Arte Anderson Gomes ags@cin.ufpe.br. Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz. Principais Empresas e Centros de Pesquisa. Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology. Google.
E N D
Estado da Arte Anderson Gomes ags@cin.ufpe.br Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz
Principais Empresas e Centros de Pesquisa • Google • Darpa • IBM • Philips • Nuance • INESC • UFRJ • UCS • Nagoya InstituteofTechnology
Google • Possui um grupo de pesquisa de voz • GAudi • Sistema de reconhecimento de voz • Utilizado para indexar palavras faladas em vídeos • Restringe-se a política • Vocabulário será ampliado • Mudar o “modo” de se fazer uma pesquisa
DARPA • Grupo de pesquisa de voz • Sistema de tradução entre diversas línguas para uso militar • Não realiza transcrição
IBM • Possui um grupo de pesquisa de voz • ViaVoice • Reconhece uma única Voz • Sisi • Transforma a voz do usuário em sinais para comunicação com deficientes auditivos • Avatares representam os sinais • Fortes avanços no desenvolvimento de um sistema de reconhecimento de voz audio-visual
Philips • Speech Magic • Softwares e hardwares • Reconhece uma única Voz • Speech SDK • Reconhece uma única Voz • SDK para ser usada no desenvolvimento de outros softwares
Nuance - Dragon Systems • DragonNaturallySpeaking • Reconhece uma única voz
INESC-ID • TECNOVOZ • Amplo projeto envolvendo algumas empresas e universidades • Abrange vários projetos, inclusive transcrição e legendagem automática • O INESC-ID é responsável pelo módulo de conversão fala-texto, além de outros
UFRJ • Implementação de um LVCSR para o português brasileiro • Rafael Teruszkin • Fernando Gil Vianna Resende Junior
UCS • BRAVOZ – Reconhecimento de voz com suporte a grandes vocabulários (LVCSR) para o português brasileiro • Verônica Feldkircher • Vanessa Davanzo • André Gustavo Adami (orientador)
Nagoya InstituteofTechnology • Julius • Software open source de reconhecimento de voz • Japonês • Pode ser integrado a outras línguas
Arquitetura Speech input Featurevector Recognizedsentence Spectralanalysis Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics
Arquitetura – Primeiro passo • Spectralanalysis • Retorna o vetor das características do sinal de voz Speech input Featurevector Spectralanalysis
Arquitetura – Segundo passo • Junção de duas partes: • World-level match • Sentence-level match Word-level match Sentence-level match
Arquitetura – Segundo passo • Word-level match: • Conjunto de subpalavrasHMMs • Forma léxica das palavras • Criação de conjunto de modelo de palavras HMMs Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics
Arquitetura – Segundo passo • Sentence-levelmatch: • Word grammar (syntax) • Semantics • Composição de um modelo de linguagem FSN Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics
Arquitetura – Segundo passo • Integração do word-level match e do sentence-level match • LevelBuilding (LB) algorithm • Exemplo de integração de uma gramática FSN em um algoritmo LB
Arquitetura • Após a integração dos módulos de word-level match e sentence-level match é formada a sentença reconhecida Recognizedsentence Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics