1 / 12

24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Moteur de recherche XML pour la plateforme Outilex. 24 Novembre 2006 Laboratoire d’Informatique de Paris 6. Introduction. Evolution dans le format des documents électroniques Passage document « plat »  document « structuré »

wyome
Download Presentation

24 Novembre 2006 Laboratoire d’Informatique de Paris 6

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Moteur de recherche XML pour la plateforme Outilex 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

  2. Introduction • Evolution dans le format des documents électroniques • Passage document « plat »  document « structuré » • Ces documents sont définis par une structure logique (chapitres, sections, paragraphes, …) • Incapacité des moteurs de recherche traditionnels face à ces nouveaux formats • Avec cette évolution ont apparu de nouveaux besoins visant à exploiter la richesse présente dans ces documents • Nécessité d’élaborer de nouveaux concepts pour l’indexation, le traitement, … 1 Laboratoire d’Informatique de Paris 6

  3. Initiative internationale INEX • Corpus: • 2002-2005 - 500 Mo de documents XML + requêtes + jugements de pertinence, 16 000 documents (IEEE journals), 10 millions de doxels, • 2006 Wikipedia XML : textes anglais de Wikipedia, 659,388 articles couvrant une hierarchie de 113,483 categories, > 60 Gigabytes, 5000 tags differents. En moyenne an article contains 161.35 nœuds XML par article, profondeur moyenne d’un élément 6.72.

  4. Résultats INEX 2006

  5. Travail effectué par le LIP6 • Développement de moteurs de recherche XML • Réseaux Bayesiens • Algorithmes d’apprentissage (ordonnancement) • Implémenation d’un modèle simple dans la plateforme Outilex • Développement d’un module python permettant d’utiliser des fonctionnalités d’Outilex • Cas de figure : Détection de mots composés. • Les fonctionnalités ajoutées: • Indexation de la structure des documents XML, • Pré-traitements linguistiques (utilisation du lemmatiseur Tree-Tagger et Outilex), • Constitution d’index pour une recherche rapide, • Serveur permettant de répondre à des requêtes composées de mots-clés. 2 Laboratoire d’Informatique de Paris 6

  6. Outilex Documents XML Detection demots composés(français et anglais) Modules Pythond'interface TreeTagger Base de données Lemmatisation(français et anglais) Navigateur Serveur(Python/XMLRPC) Architecture 3 Laboratoire d’Informatique de Paris 6

  7. Recherche structurée • Développé en python dans le cadre de la platerforme SIRXQL • Basé sur Okapi, adapté à la RI structurée Fréquence du terme dans l'élément / la requête Importance du terme dans la collection constante dépendant de la longueur moyennedes éléments X du même type (i.e. section, paragraphe, ...) Laboratoire d'Informatiqe de Paris 6

  8. Moteur de Recherche XML Démo sur http://webia.lip6.fr/~bpiwowar/outilex/search 6

  9. Requête: « grèce antique », base wikipédia Laboratoire d'Informatiqe de Paris 6

  10. Titre du document Structure et contenu du document Profondeur dans l’arbre de la collection Nœuds fils niveau 1 Résultat sur le premier document retourné pour la requête “Grèce Antique” Laboratoire d'Informatiqe de Paris 6

  11. Résultat de "(une) station spatiale" Laboratoire d'Informatiqe de Paris 6

  12. Conclusion • Une plateforme ouverte • pour l'implémentation d'autres algorithmes de recherche structurée • pour une utilisation plus poussée d'outilex (au delà de la détection de mots composés) • Implémentation en Python + MySQL • Des tests sur INEX 2005 (collection de documents en anglais) ont donné de bons résultats (précision accrue) Laboratoire d'Informatiqe de Paris 6

More Related