1 / 25

Apprendre et optimiser la courbe ROC Une application médicale

CAP’03. Apprendre et optimiser la courbe ROC Une application médicale. Michèle Sébag, Jérôme Azé, Noël Lucas. Les risques d’athérosclérose. Les données L es buts Reformuler le problème Utilisation des courbes ROC R é sultats Conclusion. L’athérosclérose.

tarika
Download Presentation

Apprendre et optimiser la courbe ROC Une application médicale

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CAP’03 Apprendre et optimiser la courbe ROCUne application médicale Michèle Sébag, Jérôme Azé, Noël Lucas

  2. Les risques d’athérosclérose • Les données • Les buts • Reformuler le problème • Utilisation des courbes ROC • Résultats • Conclusion

  3. L’athérosclérose Association variable de remaniement de la paroi des artères consistant en une accumulation de lipides, de produits sanguins et de dépôts calcaires ; le tout s’accompagnant de modification de diamètre et de la solidité du vaisseau (OMS)

  4. Une plaque d’athérosclérose

  5. D’où viennent les données Collecte des données sur 20 ans St Charles University, Academy of Sciences, Prague Contexte un challenge européen Helsinki, Août 2002 European Conference on Machine Learning Principles and Practice of Knowledge Discovery in Databases http://lisp.vse.cz/challenge/ecmlpkdd2003/

  6. Deux bases de données Entry (cliché + informations familiales) • 1419 hommes d’age moyen • 219 attributs • 3 classes (normal, à risque, pathologique) Control (suivi sur ~20 ans : 1976-1999) • 10610 examens • 66 attributs (changements, maladies, examen bio, …)

  7. Objectifs But • Prévention des maladies cardio-vasculaires • Identification des facteurs de risque Questions • Quels facteurs sont importants ? • Comment interagissent-ils ? Analyse exploratoire des données

  8. Difficultés 1 Remarque : (1) et (2) sont renseignés dans la base (3) est une information cachée  Identification des conditions nécessaires mais pas des conditions suffisantes

  9. Difficultés 2 Description détaillée  creuse Infarctus de la 4ème sœur, renseigné 4 fois dans la base

  10. Redescription des données Métaphore : Le corps est un pont • La robustesse initiale du pont anamnèse familiale • La robustesse courante du pont attributs personnels • Le trafic qui charge le pont alcool, tabac, … Redescription des facteurs de risque en utilisant cette métaphore et avec l’aide intensive de l’expert • Facteurs familiaux 160 var 9 var, (ANAES1) • État de santé 32 var 16 var • Intoxication (tabac, alcool) 13 var 2 var 1Agence Nationale d’Accréditation et Évaluation en Santé

  11. Difficulté 3Communication avec l’expert Approches usuelles Apprentissage artificiel Fouille de données des hypothèses (nombreuses…) L’expert dit : oui ou non. Approche proposée Représentation du risque  des graphiques L’expert dit : ceci suggère que … Using vision to think Card, Mackinlay, Schneiderman, 1999

  12. Classes de risque  Indicateur de risque Besoin • Une perception fine du risque • (risque du patient X > risque du patient Y) Objectif • Apprendre un indicateur (numérique) de risque Approche • Un critère d’évaluation : la courbe ROC • Un moteur d’optimisation : algorithmes génétiques (problème d’optimisation mixte, combinatoire et numérique)

  13. La courbe ROC(Receiver Operating Characteristics) Évaluation d’un test médical : compromis entre • Taux de vrais positifs (sensibilité médicale) • Taux de vrais négatifs (spécificité médicale) Vrais positifs Faux positifs

  14. Aire sous la courbe ROC Critère plus fiable que la précision(Ling, Huang, Zhang, AI’03) • Insensible à la distribution • Indépendant des coûts d’erreur De plus en plus utilisé en apprentissage supervisé • Ferry, Flach, Hernandez-Orallo, ICML’2002 • Mozer et al., NIPS’01

  15. risque Algorithme, 1 Espace de recherche / espace des hypothèses Combinaison linéaire des attributs h(Ex) = i x atti (Ex) avec (Ex, +/-) Qualité d’une hypothèse : Aire sous la courbe ROC h  (risque(Ex), Etiq(Ex)) Trier les exemples par risque croissant ++++-+---++-----+++----------- + : malade (exemple positif pour l’athérosclérose) - : sain (exemple négatif pour l’athérosclérose)

  16. h1: ++++++---- h2 : +++-+++--- h3 : ++-+-++-+- Algorithme, 2 Critèreà optimiser maximiser l’aire sous la courbe ROC  minimiser la somme des rangs des ex. positifs rang = 21 rang = 25 rang = 26

  17. Algorithme, 3 Moteur d’optimisation • Stratégies d’évolution (utilisation d’EvolC) Validation expérimentale • 2/3 apprentissage , 1/3 test • 21 exécutions indépendantes • Calcul de la courbe ROC médiane

  18. Évaluation et courbe ROC Courbe médiane, comparaison avec Machines à Vecteurs Supports

  19. Évaluation et courbe ROC Pathologique Risque À risque Normal Individus triés par risque croissant

  20. Analyse de sensibilité Exploitation des 21 runs (algs. Stochastique)

  21. Analyse d’impact le facteur tabac Procédure A = { 100 individus non fumeurs } B = { 100 individus gros fumeurs } Ordonner A et B par risque croissant Tracer (i, risque(i))

  22. Impact du tabac

  23. Impact de l’alcool

  24. Conclusion et perspectives Mériter l’attention d’un expert médecin • Un algorithme stable • Des résultats précis et lisibles La retenir • Explorer des hypothèses : que se passe-t-il si ? • Je fige l’importance de l’alcool, de l’anamnèse familiale que devient l’importance de l’éducation ? • Extension de comités d’experts • Apprendre la fonction d’intérêt de l’utilisateur

More Related