1 / 15

Projet Acquisition de connaissances

INSA de Rennes Département INFO 4 ième année – G2.1. Projet Acquisition de connaissances. Réalisé par Anne-Laure Berrée , Andra Maria Blaj , Stéphanie Charlet , Diana Dragusin , Daphné Dussaud , Emeline Escolivet , Nolwenn Poirier & Fanny Tollec. Encadré par Peggy CELLIER.

imaran
Download Presentation

Projet Acquisition de connaissances

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. INSA de Rennes Département INFO 4ième année – G2.1 Projet Acquisition de connaissances Réalisé par Anne-Laure Berrée,Andra Maria Blaj, Stéphanie Charlet, Diana Dragusin, Daphné Dussaud, Emeline Escolivet, Nolwenn Poirier & Fanny Tollec Encadré par Peggy CELLIER

  2. Plan Contexte et objectifs Choix effectués Description de l’outil Comparaison avec Weka

  3. Contexte et objectifs Quelques rappels • Règles d’associations • SI condition(s) ALORS • fait(s) Weka • Objectif général • Extraire des règles • d’associations à • partir de données • de la forme Notre outil

  4. Contexte et objectifs Objectifs • Objectif n°1 • Transformer deux types de jeux de données en la matrice Transaction/Items • Objectif n°2 • Implémenter un algorithme from scratch effectuant un travail semblable à Apriori • Objectif n°3 • Implémenter différents calculs d’indice statistique • Objectif n°4 • Implémenter différents types d’itemsets • Objectif n°5 • Comparer les performances de l’outil avec Weka

  5. II. Choix effectués Langage Pourquoi Java ? • Langage orienté objet permettant une modélisation simple et rapide • Présence de structures de données facilement manipulables • Import des fichiers relativement aisé • Facilité de mise en place d’une interface graphique • Multiplateforme

  6. II. Choix effectués Algorithme • Algorithme APriori • Exploration des données dans le domaine de l’apprentissage des règles d’association • Reconnaissance des propriétés qui reviennent fréquemment dans un ensemble des données • Algorithme FP-Growth • Très proche d’Apriori • Recherche basée sur la génération d’itemsets et leur fréquence • Utilisation d’une structure de données : Frequent-Pattern tree • permettant de trouver des itemsets fréquents dans une grande base de données

  7. II. Choix effectués Algorithme Comparaison des algorithmes • Apriori • Multiples parcours de la base de données • Génération d’un nombre considérable d'itemsets • Calcul leur support à chaque fois • Très coûteux de gérer cette quantité d'itemsets • FP-Growth • Réduction du nombre de parcours de la base de données • Diminution du nombre de génération d'itemsets • Facilite le calcul du support • Plus adapté aux grandes bases de données • Mise en œuvre assez difficile

  8. II. Choix effectués Modélisation listeRegles items Moteur Attribut • matrix : boolean[][] • seuilSupportMin : double • seuilCritereMin : double RègleAssociation ItemSet • - premisse : Integer [] • but : int • valeurCritere : double • itemset : Vector<Integer> • support : double indice algoSelectionne Indice AlgoApriori • Transactions : Vector<Vector<Integer>> • unItems : Vector<Integer> • itemsFreq : Vector<ItemSet> IndiceSupport IndiceLift IndiceConfiance APrioriMaximaux APriorisClos

  9. III. Description de l’outil Import et mise en forme des données • Données non structurées : • articles de journaux • Données structurées : • tickets de caisse Attributs et transactions : Tickets de caisse Attributs : Mots sous forme de liste + Phase de discrétisation des données Discrétisation d’attributs continus - Âge < 20 - 20 < Âge < 40 - 40 < Âge < 60 Discrétisation d’attributs nominaux -Homme -Femme Transactions : Articles de journaux = =

  10. III. Description de l’outil Implémentation de l’algorithme 1. Transformation des données de la matrice booléenne en transactions 2. Génération des un-itemsetsfréquents 3. Génération des 2-itemsets fréquents

  11. III. Description de l’outil Implémentation de l’algorithme 4. Génération de k-itemsetsfréquents constructionkItemsSets(entier k, entier supportMin) si (il y a eu des (k-1)-itemsets générés) alors pour chaque itemset i de taille k-1 faire pourchaqueitemset j de taille k-1 différent de ifaire si (i et j sont différents que par le dernier élément) alors kItem = i+dernier élément de j tri de kItem en ordre croissant des items supportItem = support de kItem si (supportItem>=supportMin) alors ajouter kItem et son support dans la liste des itemsetsfréquents finsi finsi fin pour fin pour si (k+1 est inférieur au cardinal de la liste de 1-itemsets fréquents) alors constructionkItemsSets ( k+1, support ) finsi finsi fin

  12. III. Description de l’outil Génération des itemsets fréquents maximaux ou fermés • Stratégie • modifier l’algorithme Apriori pour supprimer les itemsets fréquents non fermés ou non maximaux lors de leur génération Au moment où on construit un (k+1)-itemset J à partir de 2 k-itemsets, si J est fréquent alors pour chaque k-itemset I, si I est inclus dans J et I est de même support que J alors I n’est pas clos, donc on le supprime finsi fin pour finsi • Implémentation similaire pour les itemsets fréquents maximaux • Comparaison des résultats certaines règles pertinentes non générées en utilisant les itemsets fréquents maximaux ou fermés moins de redondance MAIS

  13. III. Description de l’outil Exécution et affichage des résultats • Anne-Laure (on pourrait inclure la démo là!)

  14. IV. Comparaison avec Weka Tests de performance Weka Outil créé Règles crées Eau, loi ->art ( CONF 0.9255 ) Loi ->art ( CONF 0.8571 ) Vie ->art ( CONF 0.8390 ) Eau ->art ( CONF 0.8303 ) Loi , art ->eau ( CONF 0.8285 ) Vie ->eau ( CONF 0.8218) Loi ->eau ( CONF 0.7673) 5 itemsets • Règles crées 1. france=no politique=no président=no monde=no foi=no ==> national=no conf:(0.92) 2. france=no politique=no président=no foi=no ==> national=no conf:(0.92) 3. france=no américain=yes==> national=no conf:(0.92) 4. france=no politique=no président=no monde=no ==> national=no conf:(0.92) • 7 itemsets • Calcul avec indice statistique de confiance, et Itemsetsfréquents sur le petit article : outil moins exhaustif, plus rapide et moins pertinent

  15. Bilan • Difficultés rencontrées • - Implémentation de FP-Growth • Choix de la modélisation • Atouts de l’outil • Choix de modélisation • Mise en commun

More Related