90 likes | 197 Views
Projet Lucene. Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET – Alexandre LEROUX – Fabien MIRGAINE – Maxime ODYE – Yanis ZERAOUI. 22 avril 2011 Acquisition de Connaissances 2. Sommaire. I. Présentation de Lucene II. Améliorations
E N D
Projet Lucene Thibault BARILLON – David BOSCHER – Mathieu CORNIC – Vincent DANIEL – Simon DOUILLET– Alexandre LEROUX – Fabien MIRGAINE – MaximeODYE – Yanis ZERAOUI 22 avril 2011 Acquisition de Connaissances 2
Sommaire • I. Présentation de Lucene • II. Améliorations • Gestion des synonymes • Intégration des stemmers • Conclusion • Démo
I - Présentation de Lucene • Projet open-source développé en JAVA 1 • Moteur de recherche pour documents textuels 2 • Deux phases
I - Présentation de Lucene • Ce que Lucene propose : • Indexation « intelligente » (filtre sur les mots) • Recherche par champs (titre, auteur, contenu) • Requêtes multiples (expressions régulières, expression booléennes, recherche de proximité • Ce qu’il manque à Lucene : • Interface graphique • Recherche de synonymes • Mise en place de stemmers non anglais
II – AméliorationsSynonymes (1/2) : Principe et mise en œuvre • Indexation • Lucene • Analyseur • Filtre • Base de synonymes <synonyms> <group> <syn>fast</syn> <syn>quick</syn> <syn>rapid</syn> </group> ... <synonyms> • Recherche • XML (V1) • SynonymAnalyzer • SynonymFilter • WordNet (V2) Utiliser à l’indexation et/ou à la recherche un dictionnaire des synonymes pour augmenter le nombre de résultats.
II – AméliorationsSynonymes (2/2) : Résultats Requêtes simples sur quelques fichiers Requêtes complexes sur un grand nombre de fichiers
II – AméliorationsStemmers(1/2) : Principe et mise en œuvre • Indexation « Laracinisationest le nom donné au procédé qui vise à transformer les flexions en leur radical ou stemme. Il cherche à rassembler les différentes variantes flexionnelle et dérivationnelle d’un mot »
II – AméliorationsStemmers (2/2) : Résultats Stemmatisation sur une collection (anglais) Stemmatisation d’une phrase (français) Enter query: fonctionner Searching for: fonction Occurences in : /Users/vincent/Desktop/docs/TestFrench.txt 2 x fonction Frequency : 2 Total frequency : 2 1 total matching documents Enter query: fonctionner Searching for: fonctionner Total frequency : 0 0 total matching documents
Conclusion • Quelques idées d’améliorations • Quelques difficultés rencontrées • Correcteur d’orthographe • Formation à Lucene • Améliorations des expressions régulières • Choix des fonctionnalités • Recherche contextuelle • Organisation du groupe