1 / 9

Projet Lucene

Projet Lucene. Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET – Alexandre LEROUX – Fabien MIRGAINE – Maxime ODYE – Yanis ZERAOUI. 22 avril 2011 Acquisition de Connaissances 2. Sommaire. I. Présentation de Lucene II. Améliorations

garson
Download Presentation

Projet Lucene

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projet Lucene Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET– Alexandre LEROUX – Fabien MIRGAINE – MaximeODYE – Yanis ZERAOUI 22 avril 2011 Acquisition de Connaissances 2

  2. Sommaire • I. Présentation de Lucene • II. Améliorations • Gestion des synonymes • Intégration des stemmers • Conclusion • Démo

  3. I - Présentation de Lucene • Projet open-source développé en JAVA 1 • Moteur de recherche pour documents textuels 2 • Deux phases

  4. I - Présentation de Lucene • Ce que Lucene propose : • Indexation « intelligente » (filtre sur les mots) • Recherche par champs (titre, auteur, contenu) • Requêtes multiples (expressions régulières, expression booléennes, recherche de proximité • Ce qu’il manque à Lucene : • Interface graphique • Recherche de synonymes • Mise en place de stemmers non anglais

  5. II – AméliorationsSynonymes (1/2) : Principe et mise en œuvre • Indexation • Lucene • Analyseur • Filtre • Base de synonymes <synonyms> <group> <syn>fast</syn> <syn>quick</syn> <syn>rapid</syn> </group> ... <synonyms> • Recherche • XML (V1) • SynonymAnalyzer • SynonymFilter • WordNet (V2) Utiliser à l’indexation et/ou à la recherche un dictionnaire des synonymes pour augmenter le nombre de résultats.

  6. II – AméliorationsSynonymes (2/2) : Résultats Requêtes simples sur quelques fichiers Requêtes complexes sur un grand nombre de fichiers

  7. II – AméliorationsStemmers(1/2) : Principe et mise en œuvre • Indexation « Laracinisationest le nom donné au procédé qui vise à transformer les flexions en leur radical ou stemme. Il cherche à rassembler les différentes variantes flexionnelle et dérivationnelle d’un mot »

  8. II – AméliorationsStemmers (2/2) : Résultats Stemmatisation sur une collection (anglais) Stemmatisation d’une phrase (français) Enter query: fonctionner Searching for: fonction Occurences in : /Users/vincent/Desktop/docs/TestFrench.txt 2 x fonction Frequency : 2 Total frequency : 2 1 total matching documents Enter query: fonctionner Searching for: fonctionner Total frequency : 0 0 total matching documents

  9. Conclusion • Quelques idées d’améliorations • Quelques difficultés rencontrées • Correcteur d’orthographe • Formation à Lucene • Améliorations des expressions régulières • Choix des fonctionnalités • Recherche contextuelle • Organisation du groupe

More Related