Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Estado da Arte Anderson Gomes ags@cin.ufpe.br Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Principais Empresas e Centros de Pesquisa • Google • Darpa • IBM • Philips • Nuance • INESC • UFRJ • UCS • Nagoya InstituteofTechnology

Google • Possui um grupo de pesquisa de voz • GAudi • Sistema de reconhecimento de voz • Utilizado para indexar palavras faladas em vídeos • Restringe-se a política • Vocabulário será ampliado • Mudar o “modo” de se fazer uma pesquisa

DARPA • Grupo de pesquisa de voz • Sistema de tradução entre diversas línguas para uso militar • Não realiza transcrição

IBM • Possui um grupo de pesquisa de voz • ViaVoice • Reconhece uma única Voz • Sisi • Transforma a voz do usuário em sinais para comunicação com deficientes auditivos • Avatares representam os sinais • Fortes avanços no desenvolvimento de um sistema de reconhecimento de voz audio-visual

Philips • Speech Magic • Softwares e hardwares • Reconhece uma única Voz • Speech SDK • Reconhece uma única Voz • SDK para ser usada no desenvolvimento de outros softwares

Nuance - Dragon Systems • DragonNaturallySpeaking • Reconhece uma única voz

INESC-ID • TECNOVOZ • Amplo projeto envolvendo algumas empresas e universidades • Abrange vários projetos, inclusive transcrição e legendagem automática • O INESC-ID é responsável pelo módulo de conversão fala-texto, além de outros

UFRJ • Implementação de um LVCSR para o português brasileiro • Rafael Teruszkin • Fernando Gil Vianna Resende Junior

UCS • BRAVOZ – Reconhecimento de voz com suporte a grandes vocabulários (LVCSR) para o português brasileiro • Verônica Feldkircher • Vanessa Davanzo • André Gustavo Adami (orientador)

Nagoya InstituteofTechnology • Julius • Software open source de reconhecimento de voz • Japonês • Pode ser integrado a outras línguas

Arquitetura Speech input Featurevector Recognizedsentence Spectralanalysis Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics

Arquitetura – Primeiro passo • Spectralanalysis • Retorna o vetor das características do sinal de voz Speech input Featurevector Spectralanalysis

Arquitetura – Segundo passo • Junção de duas partes: • World-level match • Sentence-level match Word-level match Sentence-level match

Arquitetura – Segundo passo • Word-level match: • Conjunto de subpalavrasHMMs • Forma léxica das palavras • Criação de conjunto de modelo de palavras HMMs Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics

Arquitetura – Segundo passo • Sentence-levelmatch: • Word grammar (syntax) • Semantics • Composição de um modelo de linguagem FSN Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics

Arquitetura – Segundo passo • Integração do word-level match e do sentence-level match • LevelBuilding (LB) algorithm • Exemplo de integração de uma gramática FSN em um algoritmo LB

Arquitetura • Após a integração dos módulos de word-level match e sentence-level match é formada a sentença reconhecida Recognizedsentence Word-level match Sentence-level match Word model Word modelcomposition Subwordmodels Lexicon Grammar Semantics

Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Presentation Transcript

Sistema de Servicios Escolares de Educaci n Media Superior SISEEMS Febrero 2009

Departamento de Gestão de Suprimentos

Aristóteles: ética

Bioética e Genética

Jogos, Computador e Internet na Educação

Núcleo de Seguridad para un Sistema Operativo Orientado a Objetos Soportado por una Máquina Abstracta

INFORMÁTICA 1

SISTEMA OPERACIONAL DE CÓDIGO ABERTO (LINUX)

FUNDAMENTOS DE INVESTIGACIÓN

Sistema nervioso

Ecologia e Meio Ambiente: uma alternativa para a sociedade atual

L - Gramática da língua sistêmica.

TIPO DE CORROSÃO DE UMA BARRA DE AÇO IMERSA EM MEIO CONCRETO

DESENVOLVIMENTO DE SISTEMAS PARA WEB

INSTRUMENTOS DE PLANEJAMENTO E GESTÃO AMBIENTAL NA POLÍTICA NACIONAL DE MEIO AMBIENTE (PNMA)

A Matemática no Ensino Básico

PERSPECTIVA AGROCLIMÁTICA PARA LA CAMPAÑA AGRÍCOLA 2012/2013 Ing Agr Eduardo M. Sierra APAMA

Contabilidade Verde

CURSO DE ROBÓTICA PARA NIÑOS Nivel - I

Sistema Nervoso

EL SISTEMA ENDOCRINO

AM020C = A interface entre Meio Ambiente, Sociedade e Economia