170 likes | 245 Views
Pesquisa em imagens combinando informação visual e informação textual. Introdução. O aumento de quantidade de informação visual utilizada criou a necessidade de novos métodos nas áreas de pesquisa e recuperação de imagens, menos dependentes da intervenção humana.
E N D
Pesquisa em imagens combinando informação visual e informação textual
Introdução • O aumento de quantidade de informação visual utilizada criou a necessidade de novos métodos nas áreas de pesquisa e recuperação de imagens, menos dependentes da intervenção humana.
O problema da interpretação de conteúdos • Na recuperação automática de imagens está sempre presente o problema do semantic gap. • Como remediar este problema?
Algumas propostas anteriores • Utilização de Latent Semantic Indexing (LSI) com anglogramas (Zhao e Grosky). • Associação de emoções a imagens (Colombo et al). • Construção de estruturas de conhecimento (Barnard et al, Benitez e Chang).
A proposta para um protótipo de recuperação de imagens • Baseado no LSI. • Com os objectivos de: • Comparar os resultados obtidos com e sem utilização de características de baixo nível; • Verificar a prestação do LSI quando é utilizado com um conjunto de dados desfavorável; • Testar a eficácia de cada uma das características de baixo nível do MPEG-7.
Funcionamento do protótipo • Na fase de indexação é criada uma matriz de termos por documentos e é realizado o LSI sobre essa matriz. • Quando é colocada uma interrogação a matriz é utilizada como num modelo vectorial comum.
O MPEG-7 • Foi criado com o objectivo de promover a integração de anotações provenientes de fontes de dados diversas num único conjunto de estruturas de anotação e facilitar a pesquisa e recuperação eficientes de informação através da utilização destas estruturas.
Características de imagem do módulo XM • O eXperimentation Model é a plataforma de testes dos descritores do MPEG-7. • As suas características são classificadas como sendo relativas à cor ou à textura, mas algumas fornecem também informação espacial.
Características de imagem utilizadas • Scalable Color Descriptor (SCD) • Color Structure Descriptor (CSD) • Color Layout Descriptor (CLD) • Homogeneous Texture Descriptor (HTD) • Edge Histogram Descriptor (EHD)
Ex-votos • Definição: “Um objecto, quase sempre de índole piedosa, que se oferece a Deus ou a um Santo, em cumprimento de um voto.”
Ex-votos • Não têm um estilo distinto. • Muitas vezes um mesmo santo é representado em diferentes ex-votos com postura e simbologia semelhante.
Dados de teste • Pinturas votivas (e as descrições nelas inscritas) retiradas do livro “Do Gesto à Memória”. • Segundo este livro, na maioria dos casos, os ex-votos escolhidos são constituídos por dois elementos: a representação do suposto milagre e a representação da entidade à qual o agradecimento é destinado.
Conclusões • O protótipo concebido a partir desta proposta produziu bons resultados com a utilização de texto e de características da imagem em simultâneo, melhorando os resultados obtidos, quer com a utilização de comparação vectorial, quer com a utilização do LSI apenas com texto, para uma grande gama de documentos recuperados.
Conclusões • Na comparação dos desempenhos individuais dos cinco descritores do módulo XM do MPEG-7 usados, o Edge Histogram Descriptor obteve os melhores resultados.
Experiências futuras • Utilizar segmentação. • Utilizar query relevance feedback. • Utilizar outras métricas de distância entre vectores que não o coseno.
Experiências futuras • Verificar os resultados do protótipo com um conjunto de dados em que cor e textura sejam um factor de distinção das imagens mais relevante. • Utilizar como dados de teste documentos que conjuguem anotações textuais com vídeo.