750 likes | 886 Views
Fala e Movimentação Facial em Avatares. Alexandre Magno Maciel magnomaciel@hotmail.com Ricardo de Oliveira Schmidt schmidt@gprt.ufpe.br. Módulo Text-To-Speech. Síntese de voz. Definição: “Geração automática pelo computador de formas de onda de voz” [TAH05]
E N D
Fala e Movimentação Facialem Avatares Alexandre Magno Maciel magnomaciel@hotmail.com Ricardo de Oliveira Schmidt schmidt@gprt.ufpe.br
Síntese de voz • Definição: “Geração automática pelo computador de formas de onda de voz” [TAH05] • Outras denominações: Sistema de resposta vocal ou Text-To-Speech (TTS) • Dilema: Produção X Reprodução
Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese Síntese de voz • Processo de síntese de voz: Baixo nível Alto nível
Síntese de voz • Processo de síntese de voz: • Normalização: encontrar equivalentes “por extenso” ex: símbolos ($ %), datas, pontuação (, .) Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese
Síntese de voz • Processo de síntese de voz: • Conversão ortográfico-fonética: encontrar seqüência correta de fonemas ex: letra “x” -> xumbo, exame, tórax “o piloto morreu”; “eu piloto bem” Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese
Síntese de voz • Processo de síntese de voz: • Cálculo de intensidade e duração ex: pausas entre palavras, entonação (sentenças declarativas, imperativas e interrogativas) Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese
Síntese de voz • Processo de síntese de voz: • Geração do áudio • Estratégias: concatenativa formantes articulatória Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese
Síntese de voz • Geração do áudio: • Síntese concatenativa : segmentos de áudio pré-gravadas a partir de um inventário de unidades previamente construído. • Tamanho das unidades: • Palavras • Silabas (Demissílabas) • Fones (Difones)
Síntese de voz • Geração do áudio: • Síntese de formantes: modelo acústico que forma o áudio de acordo com uma série de parâmetros • Síntese articulatória: gera o sinal de voz através da modelação das características físicas, anatômicas e fisiológicas do aparelho humano produtor de voz
Síntese de voz • Trabalhos realizados: • Simões, 1999 (dissertação - UNICAMP) • Dicionário de 2450 unidades • Síntese concatenativa • Voz masculina
Síntese de voz • Trabalhos realizados: • Carvalho, 2005 (INESC) • DIXI • Síntese concatenativa • Dicionário de 4000 unidades • Vozes masculina e feminina
Síntese de voz • Trabalhos realizados: • DOSVOX (UFRJ) ... 2008 • Auxílio deficientes físicos • Software livre
Síntese de voz • Trabalhos realizados: • MATRACA (UFCG) ... 2008 • Auxílio deficientes físicos • Software livre
Síntese de voz • Aplicações Comerciais • IBM ViaVoice 8.0 • NUANCE Dragon Systems • Jaws for Windows
Extração de Fonemas • [FEC02] • Processo de reconhecimento de padrões
Extração de Fonemas • [FEC02] • Extração de Parâmetros: • Dar representatividade • Compactar (redução dimensionalidade) • Simplicidade computacional • Principais Parâmetros: • Energia por segmento; • Taxa cruzamento por zero; • Número total e diferença entre picos; • Coeficiente de Correlação Normalizado.
Extração de Fonemas • [FEC02] • Extração de Parâmetros • Pré-Processamento: • Pré-ênfase (filter) • Segmentação (frames) • Janelamento (stationary) Segmento Janelamento Palavra “zero” após pré-ênfase
Extração de Fonemas • Extração de Parâmetros: • Principais técnicas: [DIM06] • Mel Frequency Cepstral Coding (MFCC) • Linear Predictive Coding (LPC) • Perceptual Linear Predictive (PLP) • Experimentos: • Comparador: HMM • Base de dados: • 11 locutores(7 MS,4 WS); • Treino: 3300 locuções; • Teste: 880 locuções; • Frases: 300
Extração de Fonemas • Comparação dos Padrões: • Determinísticas: • Dynamic Time Warping; • Quantização Vetorial; • Redes Neurais. • Estatísticas • Função Densidade Probabilidade; • Modelos de Markov Escondidos.
Extração de Fonemas • Trabalhos Realizados • Fechine, 2002 (UFCG) • Reconhecimento de Locutor • Independente do Texto • Base própria, 20 locutores • 20 sentenças por locutor • Parâmetros LPC (12) • Híbrido (QV + HMM)
Extração de Fonemas • Trabalhos Realizados • Rustein, 1998 (UNICAMP) • Reconhecimento de fala • Independente de Locutor • Base própria, 30 locutores • 10 sentenças por locutor • Parâmetros diversos • Redes Neurais Backpropagation Kohonen Quantização Vetorial
Interpretação de Visemas • Associação entre fonemas/vogais e seus respectivos visemas • Parâmetros emocionais • Energia • Parâmetros de animação
Etapa de Animação • Construção da animação • Síntese de video ou técnicas de keyframing • Parâmetros ao modelo da face associados ao áudio
Aminação Facial • Parametrização ideal para os sistemas de animação facial • Satisfazer todos os requisitos para um sistema de animação facial não é fácil
Aminação Facial • Facilidade de uso • Número de parâmetros, complexidade e intuitividade • Maior a flexibilidade, maior a complexidade • Sutileza • Movimentos suaves
Aminação Facial • Abstração de alto-nível • Controlar a face com alto-nível de abstração • Textos com marcações • Previsibilidade • O resultado da combinação de parâmetros deve ser previsível
Aminação Facial • Portabilidade • Troca fácil de modelos faciais • Reuso de conjuntos de parâmetros • Medição dos parâmetros • Descritos em unidades físicas que possam ser visualmente medidas na face • Eficiência • Comunicação através da rede
Trabalhos • Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis • InterFace: Um Sistema de Animação Interativa de Rostos Humanos • Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil • Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala
Trabalhos • Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis • InterFace: Um Sistema de Animação Interativa de Rostos Humanos • Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil • Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala
Animação • Parâmetros pré-calculados • Qualquer modelo possa ser animado • Usados pelo algoritmo de deformação • Definidos offline (antes da execução em tempo real) • Captura de pontos através de ferramentas • Feature Points • Vértices vizinhos (pesos)
Animação • Busca pelas respectivas FAPs • Facial Animation Parameters • Por exemplo: • Instrução para abrir a boca
Animação • Algoritmo de deformação • Integração dos elementos do processo
Offline Animação
Módulos da Análise fonética Animação
Animação Padrão MPEG-4
Trabalhos • Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis • InterFace: Um Sistema de Animação Interativa de Rostos Humanos • Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil • Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala
InterFace • Java e Virtual Reality Modeling Language • Sistema interativo para criação de diferentes expressões faciais • Animação entre as expressões • Técnicas de composição digital de imagens
InterFace • Dividido em 2 módulos: • Criação de Expressões • Suporte para a criação das ações • Animação Facial • Simulação do ator virtual através das 3 camadas
InterFace • Cada expressão criada individualmente • Objetos que compõe o rosto • Expressão neutra • Biblioteca básica de expressões
InterFace • Biblioteca básica de expressões • Conjunto de expressões simples • Nem muitas, nem poucas • Combinadas para criar expressões complexas • Vetor de diferenças • Valores de intensidade
Dúvida Ahh Ohh esquerda direita InterFace Rotação X Y Z