1 / 19

Introdução a Teoria da Classificação

Introdução a Teoria da Classificação. Suzana Dantas. Sistema de Recuperação da informação (SRI) .

Download Presentation

Introdução a Teoria da Classificação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introdução a Teoria da Classificação Suzana Dantas Internet e RI - aula 1

  2. Sistema de Recuperação da informação (SRI) Um Sistema de Recuperação da Informação é uma organização para armazenar e tornar disponível informação, explorando-a de modo positivo, com um índice de assunto dos documentos existentes na coleção, permitindo recuperar as referências Internet e RI - aula 1

  3. Origem • Existência de computadores – potencial para implementação de “bases de dados” • conjuntos de ficheiros • Software para manter e pesquisar a informação • Sistemas desenvolvidos – SGBD • armazenamento e processamento • informação em linguagens muito restritas – Armazenamento e RI - pesquisa de documentos • necessidade sentida nas bibliotecas nos anos 50 • reforço: proliferação de documentos eletrônicos • mais reforço: WWW Internet e RI - aula 1

  4. Conceitos • Recuperação de Informação – no sentido da recuperação de documentos ou de textos • Atividades principais – indexação ( modo de representar documentos e perguntas) – consulta (modo de analisar itens com vista à resposta a perguntas) • Atividades relacionadas - diversificação na forma de pesquisa - ex. browsing - apresentação visual de resultados • Entidades primitivas – documentos, termos de indexação Internet e RI - aula 1

  5. Nomes • Índice: nome genérico para catálogos, bibliografias, índices de artigos, etc… • Registro de documento • cabeçalho: nome do autor, cabeçalho do assunto • descrição: autor, título, edição, editor, paginação • localização Internet e RI - aula 1

  6. Indexar • Indexar significa incluir um documento num repositório de informações • Inclui identificar, determinar assuntos e selecionar termos para representar os índices • Utiliza uma linguagem de indexação Internet e RI - aula 1

  7. Métodos de Indexação • Por palavra • utiliza as palavras encontradas no título ou no documento • KWIC : Keyword in Context • Por assunto • supõe a análise do conteúdo temático do documento, a decisão sobre os conceitos presentes e a tradução em uma linguagem apropriada (artificial ou controlada) Internet e RI - aula 1

  8. Revocação e Precisão • As medidas mais comuns para avaliar a qualidade de um sistema de busca e recuperação de informação são conhecidas com revocação e precisão • Revocação mede a proporção de documentos relevantes recuperados • Precisão mede quantos documentos relevantes foram recuperados Internet e RI - aula 1

  9. Revocação e Precisão • Normalmente sistemas de BRI possuem uma curva de Recall x Precision Internet e RI - aula 1

  10. Itens recuperados Itens não recuperados B C A D Revocação e Precisão Itens não relevantes Itens relevantes Internet e RI - aula 1

  11. Revocação e Precisão • Revocação • Relevantes Recuperados/Total de itens relevantes • A/(A+D) • Precisão • Relevantes Recuperados/Total Recuperados • A/(A+B) Internet e RI - aula 1

  12. Fatores que governam • Exaustividade • Extensão com que determinado documento é indexado (número de conceitos utilizados) • grau de profundidade da indexação • Especificidade • Exatidão dos descritores • depende da linguagem de indexação Internet e RI - aula 1

  13. Relação • Maior exaustividade aumenta a revocação e diminui a precisão • Maior especifidade diminui a revocação e aumenta a precisão Internet e RI - aula 1

  14. Linguagens de Indexação • Vocabulário • coleção de termos de indexação • descritores: palavras • cabeçalhos de assuntos • símbolos de classificação • Sintaxe • artifícios empregados para revelar as relações entre os conceitos e as regras para estabelecer os descritores e a ordem de citação Internet e RI - aula 1

  15. Elementos Promotores • Revocação: aumentam o número de documentos de uma classe, alargando a definição do descritor e reduzindo o tamanho do vocabulário • Precisão: reduzem o tamanho das classes, restringem a definição dos descritores e aumentam o tamanho do vocabulário Internet e RI - aula 1

  16. Provendo Revocação • Controle de sinônimos • Controle de quase-sinônimos • Agrupamento de várias formas de uma palavra (radical comum, singular e plural) • Agrupamento de conceitos semelhantes ou relacionados • Elos hierárquicos Internet e RI - aula 1

  17. Promovendo Precisão • Coordenação • Distinção de homônimos • Ponderação • Elos (links) • Papéis ou funções (roles) Internet e RI - aula 1

  18. Extensão da Recuperação da Informação Novos meios em documentos – técnicas usadas em texto são extensíveis – documentos são cada vez mais heterogéneos • Documentos em linguagens diversas – noção de documento esbate-se – pesquisas tendem a requerer técnicas híbridas • Para tarefa específica – necessário identificar os seus requisitos de indexação e pesquisa Internet e RI - aula 1

  19. Processo de recuperação Busca (searching) índice Operações de query indexação ranking Modelo texto Texto operações Interface usuário texto Pergunta (query) usuário Internet e RI - aula 1

More Related