1 / 25

Optimisation de la technique de RBC pour la classification dans un processus de data mining

Optimisation de la technique de RBC pour la classification dans un processus de data mining. Mounir Ben Ayed (1,2) – Issam Féki (2) – Adel Alimi (2) (1) Faculté des Sciences de Sfax - Dept d’Informatique et des Com. (2) Research Group for intelligent machines (REGIM - ENIS).

cate
Download Presentation

Optimisation de la technique de RBC pour la classification dans un processus de data mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2) (1)Faculté des Sciences de Sfax - Dept d’Informatique et des Com. (2)Research Group for intelligent machines (REGIM - ENIS) FDC - Lille 17 Janvier 2006

  2. Contexte Dans le domaine médical -> RBC Algorithme standards Kppv (k plus proche voisins) . Les bases de + en + grande (Entrepôt de données) Temps d’exécution de l’algorithme Kppv de + en + long Objectif : diminuer le temps nécessaire pour la classification d’un nouveau cas

  3. Plan de la présentation • Data Mining (techniques) • Le raisonnement à base de cas • Approche proposée • Évaluation des performances • Conclusion et perspectives

  4. Généralité sur le Data Mining Techniques Raisonnement à base de cas Les arbres de décision Data Mining Les algorithmes génétiques Les réseaux de neurones Autres …

  5. Raisonnement à base de cas -Technique qui provient des travaux en sciences cognitive (1980) -La similarité entre les descriptions de problèmes est une indication de l’utilité des solutions antécédentes. Principe : • Utilisation des expériences passées pour résoudre de nouveaux problèmes. • -L’ensemble des expériences forme une base de cas.

  6. Raisonnement à base de cas K plus proches voisins (Kppv) -Algorithme de recherche des cas les plus proches similaires à un nouveau cas -Convertir les enregistrements en des points et calculer les distances entre ces points. A a un plus proche voisin B, B a de nombreux voisins proches autres que A

  7. Raisonnement à base de cas Kppv -La classification d’un nouveau cas nécessite le calcul des distances entre ce cas est tous les cas de la base Classification très coûteuse en temps Plus la taille de la base est importante plus le temps d’exécution (par Kppv) est long

  8. Les améliorations du Kppv La méthode ‘’Category_Based Search’’ (Iwayama,1995) -Représenter tous les cas d’une classe par un cas unique.Exemple: les moyennes des données associées à une classe

  9. -Pas de comparaison de tous les cas avec le nouveau cas Gain de temps

  10. La méthode: ‘’Cluster Based search’’ (Salton,1983) -Utilisation d’un algorithme de classification non supervisé Distinction automatique d’un représentant pour chaque classe -Comparaison du nouveau cas seulement avec les représentant générés -pas de comparaison du nouveau cas avec tous les cas Gain de temps

  11. Approche proposée Réduction des bases de données Recherche du plus proches voisins Affectation des poids: -Des valeurs affectées par un expert aux attributs de la base de données : Degrés d’importance aux attributs les plus «importants » Pondérer la similarité globale entre deux cas

  12. Approche proposée Processus de classification proposé

  13. Approche proposée Réduction des bases de données -Construction de la requête : Select all From heart where(type de douleur=4) and (electro=0) Valeurs des attributs de fort poids du nouveau cas

  14. Approche proposée Réduction des bases de données Base de données ‘’Anomalie cardiaque’’

  15. Approche proposée Réduction des bases de données -Affectation des mêmes poids pour les attributs du nouveau cas Analyse des données et distinction des attributs de poids fort:

  16. Approche proposée Réduction des bases de données -Exécution de la requête -Génération d’une base de données réduite: 40 enregistrements au lieu de 270 Réduction de 85,19% du nombre d’enregistrements

  17. Approche proposée Recherche du plus proche voisins -Algorithme standard Kppv (toute la base) et après réduction Même résultat:

  18. Évaluation des performances Influence du contenue de la base de données -La base de données ‘Breast’ -Le nouveau cas à classer

  19. Évaluation des performances Influence du contenue de la base de données Select all From Breast where (‘forme’=2)

  20. Évaluation des performances Influence des poids des attributs Le résultat d’exécution de la requête est une table vide

  21. Évaluation des performances Influence de la taille de base de cas

  22. Évaluation des performances Étude comparative entre les deux approches: Approche standard: Approche proposée:

  23. Évaluation des performances Comparaison du temps:

  24. Conclusion et perspectives • Approche basée sur la réduction des bases de données selon les poids accordés aux attributs. •  Performances satisfaisantes en terme de qualité et de temps d’exécution. • Perspectives : • Comparaison avec le Category_Based Search ET le Cluster Based search • Rendre le système plus intelligent (Apprentissage de ses résultats antérieurs). • Nouvelle méthode de réduction des bases de données de valeurs de poids d’attributs égaux.

  25. Merci de votre attention.

More Related