120 likes | 229 Views
Moteur de recherche XML pour la plateforme Outilex. 24 Novembre 2006 Laboratoire d’Informatique de Paris 6. Introduction. Evolution dans le format des documents électroniques Passage document « plat » document « structuré »
E N D
Moteur de recherche XML pour la plateforme Outilex 24 Novembre 2006 Laboratoire d’Informatique de Paris 6
Introduction • Evolution dans le format des documents électroniques • Passage document « plat » document « structuré » • Ces documents sont définis par une structure logique (chapitres, sections, paragraphes, …) • Incapacité des moteurs de recherche traditionnels face à ces nouveaux formats • Avec cette évolution ont apparu de nouveaux besoins visant à exploiter la richesse présente dans ces documents • Nécessité d’élaborer de nouveaux concepts pour l’indexation, le traitement, … 1 Laboratoire d’Informatique de Paris 6
Initiative internationale INEX • Corpus: • 2002-2005 - 500 Mo de documents XML + requêtes + jugements de pertinence, 16 000 documents (IEEE journals), 10 millions de doxels, • 2006 Wikipedia XML : textes anglais de Wikipedia, 659,388 articles couvrant une hierarchie de 113,483 categories, > 60 Gigabytes, 5000 tags differents. En moyenne an article contains 161.35 nœuds XML par article, profondeur moyenne d’un élément 6.72.
Travail effectué par le LIP6 • Développement de moteurs de recherche XML • Réseaux Bayesiens • Algorithmes d’apprentissage (ordonnancement) • Implémenation d’un modèle simple dans la plateforme Outilex • Développement d’un module python permettant d’utiliser des fonctionnalités d’Outilex • Cas de figure : Détection de mots composés. • Les fonctionnalités ajoutées: • Indexation de la structure des documents XML, • Pré-traitements linguistiques (utilisation du lemmatiseur Tree-Tagger et Outilex), • Constitution d’index pour une recherche rapide, • Serveur permettant de répondre à des requêtes composées de mots-clés. 2 Laboratoire d’Informatique de Paris 6
Outilex Documents XML Detection demots composés(français et anglais) Modules Pythond'interface TreeTagger Base de données Lemmatisation(français et anglais) Navigateur Serveur(Python/XMLRPC) Architecture 3 Laboratoire d’Informatique de Paris 6
Recherche structurée • Développé en python dans le cadre de la platerforme SIRXQL • Basé sur Okapi, adapté à la RI structurée Fréquence du terme dans l'élément / la requête Importance du terme dans la collection constante dépendant de la longueur moyennedes éléments X du même type (i.e. section, paragraphe, ...) Laboratoire d'Informatiqe de Paris 6
Moteur de Recherche XML Démo sur http://webia.lip6.fr/~bpiwowar/outilex/search 6
Requête: « grèce antique », base wikipédia Laboratoire d'Informatiqe de Paris 6
Titre du document Structure et contenu du document Profondeur dans l’arbre de la collection Nœuds fils niveau 1 Résultat sur le premier document retourné pour la requête “Grèce Antique” Laboratoire d'Informatiqe de Paris 6
Résultat de "(une) station spatiale" Laboratoire d'Informatiqe de Paris 6
Conclusion • Une plateforme ouverte • pour l'implémentation d'autres algorithmes de recherche structurée • pour une utilisation plus poussée d'outilex (au delà de la détection de mots composés) • Implémentation en Python + MySQL • Des tests sur INEX 2005 (collection de documents en anglais) ont donné de bons résultats (précision accrue) Laboratoire d'Informatiqe de Paris 6