1 / 15

Indexação Automática de Teses e Dissertações da UFPE

Indexação Automática de Teses e Dissertações da UFPE. Remi Correia Lapa Renato Fernandes Corrêa. INTRODUÇÃO. Investimento: Tratamento Armazenamento Recuperação* *Indexação Automática *Ferramentas. REVISÃO DE LITERATURA: INDEXAÇÃO.

barney
Download Presentation

Indexação Automática de Teses e Dissertações da UFPE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Indexação Automática de Teses e Dissertações da UFPE Remi Correia Lapa Renato Fernandes Corrêa

  2. INTRODUÇÃO • Investimento: • Tratamento • Armazenamento • Recuperação* • *Indexação Automática • *Ferramentas

  3. REVISÃO DE LITERATURA: INDEXAÇÃO • Santos e Ribeiro (2003), a indexação é uma ação que descreve e identifica um documento de acordo com seu assunto, extraindo os conceitos através de um processo de análise. Indexação Manual Indexação Automática

  4. REVISÃO DE LITERATURA: INDEXAÇÃO AUTOMÁTICA O documento é indexado por um programa que: • Extração - adota critérios de freqüência, posição e contexto com que as palavras aparecem no decorrer do texto para então extraí-las como descritores. • Atribuição - desenvolve, para cada termo a ser indexado, um “perfil” de palavras ou expressões que costumam ocorrer freqüentemente nos documentos.

  5. REVISÃO DE LITERATURA: FERRAMENTAS • Parsing - É um mecanismo usado para extrair os termos de um texto com base na análise léxica. • Taggers (Etiquetadores) - é um sistema que serve para identificar a categoria gramatical de cada item lexical do texto analisado. • Stopwords(Palavras Irrelevantes)- são palavras que não são consideradas bons descritores. • Stemmers (Radicalizadores) - atua nas palavras congêneres de um documento substituindo-as por uma representação única através do seu radical.

  6. METODOLOGIA • A pesquisa das stoplists e stemmers ocorreu através da busca de páginas com tais palavras na URL (“endereço” na internet), em seguida foram elaboradas dois tipos de planilhas: • Lista de todas URL´s encontradas, juntamente com as respectivas stoplists ou stemmers. • Pesquisa mais detalhada sobre as URL´s, procurando obter informações mais precisas.

  7. METODOLOGIA • Utilizar o programa OGMA, uma ferramenta de análise de texto que permite a identificação e pontuação de sintagmas nominais bem como a indexação por termos isolados em todas as stoplists obtidas. • Estudo do padrão de metadados MTD-BR e a identificação dos campos mais interessantes para a operação de indexação automática.

  8. RESULTADOS • Foi constatado um grande número de stoplists, e a dificuldade em localizar os stemmers. • É apresentado um quadro contendo a URL, o NÚMERO DE TERMOS e uma DESCRIÇÃO sobre a URL. • Cada lista contém grupos de palavras em comum, porém são muitas as palavras que as diferenciam.

  9. RESULTADOS Número de Palavras Ocorrência de Palavras

  10. RESULTADOS • As palavras derivadas dos verbos: ter, estar e ser, são as que ocorrem mais. • Presença de palavras escritas com sua grafia de forma errada, como nas palavras: dezassete e promeiro. • Grande parte das palavras que compõem o grupo de baixa freqüência tem que ser vistas com cautela quanto a sua utilização como stopwords, pois muitas não são irrelevantes para a busca de uma tese ou dissertação.

  11. INDEXAÇÃO DE METADADOS • MTD-BR - Padrão Brasileiro de Metadados de Teses e Dissertações. • Os campos interessantes do MTD-BR para indexação das teses de dissertações são: Tipo – tipo da fonte de informação; Identificação Documento – código que identifica a tese ou dissertação no acervo da Biblioteca Digital; Título – título da tese ou dissertação; Idioma– idioma da tese ou dissertação; Grau– grau acadêmico associado à tese ou dissertação; Titulação – nome do grau acadêmico associado à tese ou dissertação; Resumo – resumo da tese ou dissertação; Assunto – tópicos tratados na tese ou dissertação e a tabela de onde estes tópicos foram extraídos (quando for o caso); Autor – autor da tese ou dissertação; Contribuidor – contribuidor da tese ou dissertação e forma de participação (papel); Nome – nome do programa de pós-graduação; Área – área do conhecimento de programa de pós-graduação.

  12. INDEXAÇÃO DE METADADOS • Pode-se observar que a BDTD da UFPE atualmente realiza a indexação dos documentos obtendo como produto final uma lista de termos que possuem o mesmo peso semântico para recuperá-lo. Este procedimento torna o processo de busca menos eficiente, pois os descritores são tratados como palavras isoladas.

  13. CONCLUSÃO • A importância de uma boa indexação como forma de se obter uma recuperação da informação de maior qualidade e eficácia • Percebemos uma quantidade grande de ferramentas desenvolvidas para tornar a indexação automática cada vez mais eficiente melhorando desta forma o problema da recuperação da informação

  14. CONCLUSÃO • Chegamos à conclusão que cada instituição adota a lista de stopwords e stemmers que melhor se adéquam a sua necessidade, ou seja, uma palavra que pode ser entendida como mal descritor para uma instituição pode vir a ser um importante descritor para outra instituição que atua em uma realidade diferente.

  15. AGRADECIMENTOS • A UFPE pela bolsa PIBIC. • A FACEP pelo fomento ao Projeto Mapeador de Teses e Dissertações. • A Renato Fernandes Corrêa pelas orientações. • A meus pais pelo incentivo ao estudo.

More Related