430 likes | 522 Views
Minerando Dados Multimídia. Ernesto Trajano de Lima Klebson dos Santos Silva. Situações do dia-a-dia. Imagine que seu álbum de família está armazenado digitalmente. Como achar todas as fotos onde você aparece???
E N D
Minerando Dados Multimídia Ernesto Trajano de Lima Klebson dos Santos Silva
Situações do dia-a-dia • Imagine que seu álbum de família está armazenado digitalmente. Como achar todas as fotos onde você aparece??? • Como recuperar imagens, vídeos, textos e/ou áudios sobre acidentes com ônibus espaciais para mostrar no jornal da noite??? • Todos já passaram por situações onde lembram da melodia de uma música, mas não conseguem lembrar o nome. Como recuperá-la apenas cantarolando parte da melodia???
Roteiro • Definição • Motivação • Estado da Arte • Minerando Imagem e Vídeo • Minerando Sons
Definição • Sub-área da mineração de dados que trata da extração de conhecimento implícito, relações entre dados multimídia, ou outros padrões não explicitamente armazenados no banco de dados multimídia. • Multimídia = imagens, vídeos, sons, textos,web, etc.
Motivação • Grande quantidade de dados multimídia disponível; • Especialmente na web • Popularidade de banco de dados objeto-relacional • A necessidade crescente de banco de dados multimídia
Estado da Arte • É uma área incipiente; • Muita pesquisa, poucos resultados substanciais • Desperta o interesse de grande empresas • HP • http://crl.research.compaq.com/vision/multimedia/default.htm • IBM • http://www.almaden.ibm.com/ • ScanSoft (http://www.scansoft.com) • Software utilizado pelo sistema penitenciário dos EUA para detectar atividades ilegais nas conversas telefônicas dos prisioneiros
Abordagens • Busca por similaridade: • Divide-se em duas famílias principais • Baseada na descrição • Palavras-chaves, legendas, tamanho, hora de criação, etc. • Baseada no conteúdo • Histograma de cores, texturas, forma, objetos, transformações de wavelets
Abordagens • Busca baseada em conteúdo oferece dois tipos de consultas: • Baseadas em amostra • Baseadas em especificação das características • As consultas são feitas através das assinaturas das imagens • Histograma de cores • Composição de características • Wavelet • Wavelets com granularidade baseada em região
Áreas de aplicação • Diagnóstico médico • Previsão do tempo • Engenho de busca para imagens
Abordagens • Análise de dados multimídia • Exemplo: construção de cubos OLAP para analisar imagens, vídeos e sons em função de suas características (dimensões) • Classificação e Predição
Query By Image Content (IBM) • Ferramenta de busca feita pela IBM • Disponível nos componentes DB2 Image Extenders • Permite consultas em banco de imagens baseadas no conteúdo visual • Porcentagens de cores, layout de cores, texturas • A consulta pode conter textos (palavras-chaves) para melhorar performance • Usada em alguns sites da Internet
MultiMediaMiner • Sistema protótipo de mineração multimídia • Permite construção de cubos de dados multimídia • Resultado da união da experiência adquirida com dois sistemas: • DBMiner sistema analítico de mineração de dados (http://db.cs.sfu.ca/DBMiner) • C-BIRD sistema para recuperação de imagens baseada em conteúdo (http://jupiter.cs.sfu.ca/cbird)
MultiMediaMiner Image and Video repository Image Excavator C-BIRD Pre-Processor M-Miner User Interface C-BIRD Search Engine M-MMiner Discovery Modules C-BIRD Databases Multimedia Data Cube
MultiMediaMiner • Observações: • Vídeos são segmentados na detecção de mudança de cena • Cada segmento é represento por um ou mais frames, que serão tratados como imagens • A imagem original não é salva no banco de dados
MultiMediaMiner • Para cada imagem coletada são armazenados: • Informações descritivas • Nome do arquivo, URL, tipo (gif, jpeg, mpeg), páginas que referenciam a imagem, palavras-chaves, thumbnail • Descritor de características • Conjunto de vetores para cada característica visual (histograma de cores, cor mais freqüente) • Descritor de layout • Vetor sobre layout de cores
MultiMediaMiner • Módulo de mineração inclui os seguinte sub-módulos: • MM-Characterizer fornece um conjunto de características em diferentes níveis de abstrações • Provê diversos níveis de visões dos dados através de roll-up e drill-down
MultiMediaMiner • MM-Associator Encontra regras de associação a partir de um conjunto de imagens • Usa o algoritmo apriori • X Y [suporte%, confiança%] • Exemplo: “Se uma imagem é grande e relacionada com o céu, ela é azul com probabilidade de 68%”
MultiMediaMiner • MM-Classifier • classifica dados multimídia baseados em algumas classes pré-definidas • Essa classificação representada como uma árvore de decisão pode ser usada para predição
MultiMediaMiner • Palavras-chaves também são utilizadas para classificar facilitar a manipulação de grande conjunto de dados • São derivadas de informações tais como: • Nome do arquivo • Campo ALT da tag IMG • Título e cabeçalho da página html • Textos antes e depois da imagem
Mineração de Sons • Cenário 1: auditoria • Cenário 2: Napster • Duas possibilidades: • Mineração da fala (speech mining): televisão/rádio, monitoramento de conversas ao telefone, etc. • Mineração de músicas (musical mining): recuperação de músicas baseando-se na busca por conteúdo
A Indústria da Música • 3.459.000 de unidades (singles, LPs, fitas, CDs) • US$ 38.506.000 de faturamento • Crescimento de 2,6% ao ano desde 1991 • 600.000 empregos diretos (apenas na Europa, sem contar academia). Fonte: IFPI. Recording Industry in Numbers. IFPI: Londres, 2000.
Mineração e Música • Duas representações: • Simbólica: texto, MIDI, etc • Áudio: sinal contínuo
Dificuldade • Melodia não é apenas uma concatenação de notas • Relações entre diferentes níveis de abstração: alturas, intervalos, contorno melódico • Relações com outras dimensões: tempo, posição métrica • subjetividade: música alegre, triste, etc
Mineração e Análise • Musicologia comparativa: análise, classificação e visualização a partir da observação estatística de uma grande massa de dados. • Exemplo: http://www.jyu.fi/musica/essen
Entrada do Sistema • Representação simbólica da música (melodia) • Dados: 6.252 canções folclóricas alemãs e 2.226 canções folclóricas chinesas • Vantagens: • Evita a fase de limpeza e preparação dos dados • Possui meta-dados (palavras-chave): gênero, região geográfica, tipo de ritmo, tonalidade e uma descrição em linguagem natural do conteúdo.
Extração de características • Análise estatística • Distribuição das alturas, intervalos e durações. • Distribuição das transições de alturas, intervalos e durações. • Resultado: conjunto de vetores (várias dimensões)
Construção dos SOMs • Diminuir dimensionalidade • Cada vetor é a entrada de uma rede neural
Ferramentas • Ferramenta 1: Visualização dos Resultados • Canções com características similares estão próximas
Ferramentas (cont.) • Ferramenta 2: Visualização dos resultados estatísticos • Ferramenta 3: Agrupamento • Permite a análise de características estilísticas
Trabalhos Futuros • Levar em conta outros parâmetros: • contorno melódico, saliência do evento de acordo com a posição métrica, etc. • Usar arquivos áudio
Biblioteca Digital da Nova Zelândia • http://www.nzdl.org/cgibin/music/musiclibrary • MELody inDEX (MELDEX): recuperar melodias de um banco de dados • Entradas: notação simbólica ou áudio (cantado em um microfone).
Visão Geral • Áudio => preprocessamento: • Amostra do sinal • Transcrição: aplicação de filtros para estimar a freqüência fundamental • Inícios e fins: canta-se com “da” ou “ta” • Busca de strings • Programação dinâmica para fazer aproximação de strings
Conclusões • Vem despertando interesses diversos • Área com publicações recentes e ferramentas incipientes • Poucas referências unificadoras • http://link.springer.de/link/service/series/0558/tocs/t2558.htm • Tem real aplicação no mundo