150 likes | 269 Views
Indexação Automática de Teses e Dissertações da UFPE. Remi Correia Lapa Renato Fernandes Corrêa. INTRODUÇÃO. Investimento: Tratamento Armazenamento Recuperação* *Indexação Automática *Ferramentas. REVISÃO DE LITERATURA: INDEXAÇÃO.
E N D
Indexação Automática de Teses e Dissertações da UFPE Remi Correia Lapa Renato Fernandes Corrêa
INTRODUÇÃO • Investimento: • Tratamento • Armazenamento • Recuperação* • *Indexação Automática • *Ferramentas
REVISÃO DE LITERATURA: INDEXAÇÃO • Santos e Ribeiro (2003), a indexação é uma ação que descreve e identifica um documento de acordo com seu assunto, extraindo os conceitos através de um processo de análise. Indexação Manual Indexação Automática
REVISÃO DE LITERATURA: INDEXAÇÃO AUTOMÁTICA O documento é indexado por um programa que: • Extração - adota critérios de freqüência, posição e contexto com que as palavras aparecem no decorrer do texto para então extraí-las como descritores. • Atribuição - desenvolve, para cada termo a ser indexado, um “perfil” de palavras ou expressões que costumam ocorrer freqüentemente nos documentos.
REVISÃO DE LITERATURA: FERRAMENTAS • Parsing - É um mecanismo usado para extrair os termos de um texto com base na análise léxica. • Taggers (Etiquetadores) - é um sistema que serve para identificar a categoria gramatical de cada item lexical do texto analisado. • Stopwords(Palavras Irrelevantes)- são palavras que não são consideradas bons descritores. • Stemmers (Radicalizadores) - atua nas palavras congêneres de um documento substituindo-as por uma representação única através do seu radical.
METODOLOGIA • A pesquisa das stoplists e stemmers ocorreu através da busca de páginas com tais palavras na URL (“endereço” na internet), em seguida foram elaboradas dois tipos de planilhas: • Lista de todas URL´s encontradas, juntamente com as respectivas stoplists ou stemmers. • Pesquisa mais detalhada sobre as URL´s, procurando obter informações mais precisas.
METODOLOGIA • Utilizar o programa OGMA, uma ferramenta de análise de texto que permite a identificação e pontuação de sintagmas nominais bem como a indexação por termos isolados em todas as stoplists obtidas. • Estudo do padrão de metadados MTD-BR e a identificação dos campos mais interessantes para a operação de indexação automática.
RESULTADOS • Foi constatado um grande número de stoplists, e a dificuldade em localizar os stemmers. • É apresentado um quadro contendo a URL, o NÚMERO DE TERMOS e uma DESCRIÇÃO sobre a URL. • Cada lista contém grupos de palavras em comum, porém são muitas as palavras que as diferenciam.
RESULTADOS Número de Palavras Ocorrência de Palavras
RESULTADOS • As palavras derivadas dos verbos: ter, estar e ser, são as que ocorrem mais. • Presença de palavras escritas com sua grafia de forma errada, como nas palavras: dezassete e promeiro. • Grande parte das palavras que compõem o grupo de baixa freqüência tem que ser vistas com cautela quanto a sua utilização como stopwords, pois muitas não são irrelevantes para a busca de uma tese ou dissertação.
INDEXAÇÃO DE METADADOS • MTD-BR - Padrão Brasileiro de Metadados de Teses e Dissertações. • Os campos interessantes do MTD-BR para indexação das teses de dissertações são: Tipo – tipo da fonte de informação; Identificação Documento – código que identifica a tese ou dissertação no acervo da Biblioteca Digital; Título – título da tese ou dissertação; Idioma– idioma da tese ou dissertação; Grau– grau acadêmico associado à tese ou dissertação; Titulação – nome do grau acadêmico associado à tese ou dissertação; Resumo – resumo da tese ou dissertação; Assunto – tópicos tratados na tese ou dissertação e a tabela de onde estes tópicos foram extraídos (quando for o caso); Autor – autor da tese ou dissertação; Contribuidor – contribuidor da tese ou dissertação e forma de participação (papel); Nome – nome do programa de pós-graduação; Área – área do conhecimento de programa de pós-graduação.
INDEXAÇÃO DE METADADOS • Pode-se observar que a BDTD da UFPE atualmente realiza a indexação dos documentos obtendo como produto final uma lista de termos que possuem o mesmo peso semântico para recuperá-lo. Este procedimento torna o processo de busca menos eficiente, pois os descritores são tratados como palavras isoladas.
CONCLUSÃO • A importância de uma boa indexação como forma de se obter uma recuperação da informação de maior qualidade e eficácia • Percebemos uma quantidade grande de ferramentas desenvolvidas para tornar a indexação automática cada vez mais eficiente melhorando desta forma o problema da recuperação da informação
CONCLUSÃO • Chegamos à conclusão que cada instituição adota a lista de stopwords e stemmers que melhor se adéquam a sua necessidade, ou seja, uma palavra que pode ser entendida como mal descritor para uma instituição pode vir a ser um importante descritor para outra instituição que atua em uma realidade diferente.
AGRADECIMENTOS • A UFPE pela bolsa PIBIC. • A FACEP pelo fomento ao Projeto Mapeador de Teses e Dissertações. • A Renato Fernandes Corrêa pelas orientações. • A meus pais pelo incentivo ao estudo.