900 likes | 998 Views
Banco de Dados Multimídia 5. Vídeo. Prof. Cláudio Baptista. Video- Introdução. Porquê necessitamos de vídeo? Para representar movimento (motion) O que podemos fazer com dados de video? capturar, armazenar, apresentar, editar -- (sem considerar o conteúdo)
E N D
Banco de Dados Multimídia5. Vídeo Prof. Cláudio Baptista
Video- Introdução • Porquê necessitamos de vídeo? Para representar movimento (motion) • O que podemos fazer com dados de video? • capturar, armazenar, apresentar, editar -- (sem considerar o conteúdo) • query, busca, indexação -- dependente de contexto • Video sequence = Video stream (physical, raw data) + Video information (meaning)
Video - Motivação • A grande quantidade de vídeos produzidos que necessitam de recuperação por • Ex.: Um ano de video da NBA mostrando os melhores eventos:Número total de jogos num ano: 29 * 82 / 2 + 91 = 1280 (jogos)Precisamos de 1280 * 3 = 3840 (horas) para navegar sequencialmente se usando um video player • Uma facilidade de acesso randômico pode reduzir este tempo pode ser reduzido a poucos dias.
Imagem & Video • An image is captured when a camera scans a scene • Colour => Red (R), Green (G) and Blue (B) array of digital samples • Density of samples (pixels) gives resolution • A video is captured when a camera scans a scene at multiple time instants • Each sample is called a frame giving rise to a frame rate (frames/sec) measured in Hz • TV (full motion video) is 25Hz • Mobile video telephony is 8-15 Hz
Representação de Vídeo • Analógico: convertido para digital usando uma placa de captura de vídeo (digitalização) • Digital: AVI, MPEG-1,-2,-4
Características de vídeo • Comparação com dados alfanuméricos
BD Vídeo Tipos de consulta: 1. Usuário pode ter visto uma cena de um video e deseja recuperá-la 2. Usuário pode estar procurando por um vídeo que ele nunca viu antes 3. Usuário pode ter apenas uma vaga idéia do que ele está procurando.
BD Vídeo Meta: determinar a sintaxe e semântica de um video. Passo 1: identificar a sintaxe: Um filme é composto por segmentos, cenas e tomadas. - Quadro (Frame): uma imagem do vídeo - Tomadas (shots): sequência contínua de frames de uma câmera com início e fim bem definidos. - Cena (Episode): coleção de shots adjacentes focando os mesmos objetos e descrevendo uma cadeia completa de ações. - Segmento: é um grupo de cenas, não necessariamente adjacentes, ligados por uma linha comum de ações.
Categoria: News Data: 10/12/96 Duração: 15 min Fonte: Globo Num. Estórias: M Keywords: C. Grande, Micarande, Turismo, festa ... clip Segmento index: 1 Título: Folia nos blocos Num. Shots: K Frame inicial: 00000 Frame final: 02000 Evento: narração, entrevistas, diálogos, ... ... Segmento 1 Segmento M ... Shot index: 1 Frame inicial: 00000 Frame final: 00300 Camera: still Nível de audio: médio Num. Pessoas: 10 Keywords: dança, festa animação, ... Shot 1 Shot K ... Frame 00000 Frame 00300
BD Vídeo • Passo 2: semântica • Uso de metadata para especificar a semântica do video. • Através de anotações, capturas de texto, e algoritmos de • segmentação de imagem (similar a proc. de imagens). • BD Video pode ser indexado por: • - dados bibliográficos: título, abstract, assunto, gênero • - dados estruturados: segmento, cena e tomada • - dados de conteúdo: uso de keyframes e keywords.
Análise de Movimento • O processo de análise de movimento é dividido em 3 estágios: • detecção de objetos em movimento • trajetória de objetos • análise final de movimento
Modelo de Informação de Video • CBR em video usa: • anotação manual para descrever informação semântica (lento) • representação icônica usando métodos automáticos para detecção de mudança de cena (cortes) (perde a propriedade de movimento) • propriedades estáticas derivadas usando técnicas de análise de imagens (perde aspecto temporal do video)
Caracterização de Informação de Video • Tipos de informações físicas associados com video: • Objeto -- video stream • atributos (length, size, frame numbering) • informação (format resolution headers, frame rate) • O que pode ser derivado de um video? • O -- conjunto de objetos presentes num video • M -- conjunto de representações de movimento • Features, spatial relationships, derivados de O • Spatiotemporal info derivada de O e M juntos • Spatiotempotal info fornecida pelo designer • Temporal relationships inferidos de M • Image information
Operadores de Video • Além dos clássicos: FF, play, record, Rewind, stop e pause • Inserir um video em outro • Extrair um video clip • Extração de cortes • Extrair uma imagem de um video
Operadores de atributos de video • v_length:Video -> Integer • frame_rate: Video -> Integer • size: Video -> Integer • resolution: Video -> String • compression: Video -> String
Áudio Prof. Cláudio Baptista
Áudio • Processamento de Fala • Reconhecimento de Fala • Síntese de Fala • Reconhecimento de Música
Reconhecimento de Fala • Motivação: • •How can machines make sense of – and participate in – human communication? recognizing, interpreting, understanding, generating • Underpins • richer, human-centred approaches to computing • perceptual computers that can interpret their environment • technological enhancements to human-human communication
Características Ácústicas • Process the speech waveform to obtain a representation that emphasizes those aspects of the speech signal most relevant to ASR
Dificuldades no Reconhecimento da fala • Speech recognition is difficult due to several sourcesv of variation • Size - number of words in the vocabulary, perpelexity • Style - continuous speech or isolated; planned or spontaneous; • Speaker characteristics and accent - tuned for a single speaker, or speaker-independent? • Acoustic environment - noise, competing speakers, channel conditions (microphone, phone line, ...)
Conhecimento linguístico • One could construct a speech recognizer using linguistic knowledge • Acoustic phonetic rules to relate spectrogram representations of sounds to phonemes • Base pronunciations of words stored in a dictionary • Morphological rules to construct inflected forms • Grammatical rules to model syntax • Semantic and pragmatic constraints • Very difficult to take account of the variability of spoken language with such approaches
Machine Learning • Intense effort needed to derive and encode linguistic rules that cover all the language • Speech has a high degree of variability (speaker, pronunciation, spontaneity, ...) • Difficult to write a grammar for spoken language - many people rarely speak grammatically • Data-driven approach • Construct simple models of speech which can be earned from large amounts of data (thousands of hours of speech recordings)
Solução: Métodos Estatísticos • Redes Bayesianas • Cadeias de Markov
Música • O que é MIR? • Born ca. 1960’s in IR research • Major recent growth precipitated by advent of networked digital music collections • Informed by multiple disciplines andliteratures
DEfinindo MIR • Music Information Retrieval (MIR) is the process of searching for, and finding, music objects, or parts of music objects, via a query framed musically and/or in musical terms • Music Objects: Scores, Parts, Recordings (WAV, MP3, etc.), etc. • Musically framed query: Singing, Humming, Keyboard, Notation-based, MIDI file, Sound file, etc. • Musical terms: Genre, Style, Tempo, etc.