1 / 90

Banco de Dados Multimídia 5. Vídeo

Banco de Dados Multimídia 5. Vídeo. Prof. Cláudio Baptista. Video- Introdução. Porquê necessitamos de vídeo? Para representar movimento (motion) O que podemos fazer com dados de video? capturar, armazenar, apresentar, editar -- (sem considerar o conteúdo)

solana
Download Presentation

Banco de Dados Multimídia 5. Vídeo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Banco de Dados Multimídia5. Vídeo Prof. Cláudio Baptista

  2. Video- Introdução • Porquê necessitamos de vídeo? Para representar movimento (motion) • O que podemos fazer com dados de video? • capturar, armazenar, apresentar, editar -- (sem considerar o conteúdo) • query, busca, indexação -- dependente de contexto • Video sequence = Video stream (physical, raw data) + Video information (meaning)

  3. Video - Motivação • A grande quantidade de vídeos produzidos que necessitam de recuperação por • Ex.: Um ano de video da NBA mostrando os melhores eventos:Número total de jogos num ano: 29 * 82 / 2 + 91 = 1280 (jogos)Precisamos de 1280 * 3 = 3840 (horas) para navegar sequencialmente se usando um video player • Uma facilidade de acesso randômico pode reduzir este tempo pode ser reduzido a poucos dias.

  4. Video - Motivação

  5. Porquê agora?

  6. Porquê agora?

  7. Imagem & Video • An image is captured when a camera scans a scene • Colour => Red (R), Green (G) and Blue (B) array of digital samples • Density of samples (pixels) gives resolution • A video is captured when a camera scans a scene at multiple time instants • Each sample is called a frame giving rise to a frame rate (frames/sec) measured in Hz • TV (full motion video) is 25Hz • Mobile video telephony is 8-15 Hz

  8. Video Data

  9. Compressão

  10. Compressão

  11. Representação de Vídeo • Analógico: convertido para digital usando uma placa de captura de vídeo (digitalização) • Digital: AVI, MPEG-1,-2,-4

  12. Representação de Vídeo

  13. Representação de Vídeo

  14. Representação de Vídeo

  15. Características de vídeo • Comparação com dados alfanuméricos

  16. BD Vídeo Tipos de consulta: 1. Usuário pode ter visto uma cena de um video e deseja recuperá-la 2. Usuário pode estar procurando por um vídeo que ele nunca viu antes 3. Usuário pode ter apenas uma vaga idéia do que ele está procurando.

  17. BD Vídeo Meta: determinar a sintaxe e semântica de um video. Passo 1: identificar a sintaxe: Um filme é composto por segmentos, cenas e tomadas. - Quadro (Frame): uma imagem do vídeo - Tomadas (shots): sequência contínua de frames de uma câmera com início e fim bem definidos. - Cena (Episode): coleção de shots adjacentes focando os mesmos objetos e descrevendo uma cadeia completa de ações. - Segmento: é um grupo de cenas, não necessariamente adjacentes, ligados por uma linha comum de ações.

  18. Categoria: News Data: 10/12/96 Duração: 15 min Fonte: Globo Num. Estórias: M Keywords: C. Grande, Micarande, Turismo, festa ... clip Segmento index: 1 Título: Folia nos blocos Num. Shots: K Frame inicial: 00000 Frame final: 02000 Evento: narração, entrevistas, diálogos, ... ... Segmento 1 Segmento M ... Shot index: 1 Frame inicial: 00000 Frame final: 00300 Camera: still Nível de audio: médio Num. Pessoas: 10 Keywords: dança, festa animação, ... Shot 1 Shot K ... Frame 00000 Frame 00300

  19. BD Vídeo • Passo 2: semântica • Uso de metadata para especificar a semântica do video. • Através de anotações, capturas de texto, e algoritmos de • segmentação de imagem (similar a proc. de imagens). • BD Video pode ser indexado por: • - dados bibliográficos: título, abstract, assunto, gênero • - dados estruturados: segmento, cena e tomada • - dados de conteúdo: uso de keyframes e keywords.

  20. Análise de Movimento • O processo de análise de movimento é dividido em 3 estágios: • detecção de objetos em movimento • trajetória de objetos • análise final de movimento

  21. Modelo de Informação de Video • CBR em video usa: • anotação manual para descrever informação semântica (lento) • representação icônica usando métodos automáticos para detecção de mudança de cena (cortes) (perde a propriedade de movimento) • propriedades estáticas derivadas usando técnicas de análise de imagens (perde aspecto temporal do video)

  22. Caracterização de Informação de Video • Tipos de informações físicas associados com video: • Objeto -- video stream • atributos (length, size, frame numbering) • informação (format resolution headers, frame rate) • O que pode ser derivado de um video? • O -- conjunto de objetos presentes num video • M -- conjunto de representações de movimento • Features, spatial relationships, derivados de O • Spatiotemporal info derivada de O e M juntos • Spatiotempotal info fornecida pelo designer • Temporal relationships inferidos de M • Image information

  23. Operadores de Video • Além dos clássicos: FF, play, record, Rewind, stop e pause • Inserir um video em outro • Extrair um video clip • Extração de cortes • Extrair uma imagem de um video

  24. Operadores de atributos de video • v_length:Video -> Integer • frame_rate: Video -> Integer • size: Video -> Integer • resolution: Video -> String • compression: Video -> String

  25. Video Segmentation

  26. Segmentação de Vídeo: O que é importante?

  27. Segmentação de Vídeo: O que é importante?

  28. Problema Semântico

  29. Video Segmentation

  30. Video Segmentation

  31. Video Segmentation

  32. Semantic Indexing Overview

  33. Projetos: Informedia

  34. Projetos: IBM Marvel

  35. Áudio Prof. Cláudio Baptista

  36. Áudio • Processamento de Fala • Reconhecimento de Fala • Síntese de Fala • Reconhecimento de Música

  37. Reconhecimento de Fala • Motivação: • •How can machines make sense of – and participate in – human communication? recognizing, interpreting, understanding, generating • Underpins • richer, human-centred approaches to computing • perceptual computers that can interpret their environment • technological enhancements to human-human communication

  38. Características Ácústicas • Process the speech waveform to obtain a representation that emphasizes those aspects of the speech signal most relevant to ASR

  39. Dificuldades no Reconhecimento da fala • Speech recognition is difficult due to several sourcesv of variation • Size - number of words in the vocabulary, perpelexity • Style - continuous speech or isolated; planned or spontaneous; • Speaker characteristics and accent - tuned for a single speaker, or speaker-independent? • Acoustic environment - noise, competing speakers, channel conditions (microphone, phone line, ...)

  40. Conhecimento linguístico • One could construct a speech recognizer using linguistic knowledge • Acoustic phonetic rules to relate spectrogram representations of sounds to phonemes • Base pronunciations of words stored in a dictionary • Morphological rules to construct inflected forms • Grammatical rules to model syntax • Semantic and pragmatic constraints • Very difficult to take account of the variability of spoken language with such approaches

  41. Machine Learning • Intense effort needed to derive and encode linguistic rules that cover all the language • Speech has a high degree of variability (speaker, pronunciation, spontaneity, ...) • Difficult to write a grammar for spoken language - many people rarely speak grammatically • Data-driven approach • Construct simple models of speech which can be earned from large amounts of data (thousands of hours of speech recordings)

  42. Solução: Métodos Estatísticos • Redes Bayesianas • Cadeias de Markov

  43. Música • O que é MIR? • Born ca. 1960’s in IR research • Major recent growth precipitated by advent of networked digital music collections • Informed by multiple disciplines andliteratures

  44. DEfinindo MIR • Music Information Retrieval (MIR) is the process of searching for, and finding, music objects, or parts of music objects, via a query framed musically and/or in musical terms • Music Objects: Scores, Parts, Recordings (WAV, MP3, etc.), etc. • Musically framed query: Singing, Humming, Keyboard, Notation-based, MIDI file, Sound file, etc. • Musical terms: Genre, Style, Tempo, etc.

  45. Porquê MIR é complexo?

  46. Multifaceted

More Related