300 likes | 580 Views
CAP’03. Apprendre et optimiser la courbe ROC Une application médicale. Michèle Sébag, Jérôme Azé, Noël Lucas. Les risques d’athérosclérose. Les données L es buts Reformuler le problème Utilisation des courbes ROC R é sultats Conclusion. L’athérosclérose.
E N D
CAP’03 Apprendre et optimiser la courbe ROCUne application médicale Michèle Sébag, Jérôme Azé, Noël Lucas
Les risques d’athérosclérose • Les données • Les buts • Reformuler le problème • Utilisation des courbes ROC • Résultats • Conclusion
L’athérosclérose Association variable de remaniement de la paroi des artères consistant en une accumulation de lipides, de produits sanguins et de dépôts calcaires ; le tout s’accompagnant de modification de diamètre et de la solidité du vaisseau (OMS)
D’où viennent les données Collecte des données sur 20 ans St Charles University, Academy of Sciences, Prague Contexte un challenge européen Helsinki, Août 2002 European Conference on Machine Learning Principles and Practice of Knowledge Discovery in Databases http://lisp.vse.cz/challenge/ecmlpkdd2003/
Deux bases de données Entry (cliché + informations familiales) • 1419 hommes d’age moyen • 219 attributs • 3 classes (normal, à risque, pathologique) Control (suivi sur ~20 ans : 1976-1999) • 10610 examens • 66 attributs (changements, maladies, examen bio, …)
Objectifs But • Prévention des maladies cardio-vasculaires • Identification des facteurs de risque Questions • Quels facteurs sont importants ? • Comment interagissent-ils ? Analyse exploratoire des données
Difficultés 1 Remarque : (1) et (2) sont renseignés dans la base (3) est une information cachée Identification des conditions nécessaires mais pas des conditions suffisantes
Difficultés 2 Description détaillée creuse Infarctus de la 4ème sœur, renseigné 4 fois dans la base
Redescription des données Métaphore : Le corps est un pont • La robustesse initiale du pont anamnèse familiale • La robustesse courante du pont attributs personnels • Le trafic qui charge le pont alcool, tabac, … Redescription des facteurs de risque en utilisant cette métaphore et avec l’aide intensive de l’expert • Facteurs familiaux 160 var 9 var, (ANAES1) • État de santé 32 var 16 var • Intoxication (tabac, alcool) 13 var 2 var 1Agence Nationale d’Accréditation et Évaluation en Santé
Difficulté 3Communication avec l’expert Approches usuelles Apprentissage artificiel Fouille de données des hypothèses (nombreuses…) L’expert dit : oui ou non. Approche proposée Représentation du risque des graphiques L’expert dit : ceci suggère que … Using vision to think Card, Mackinlay, Schneiderman, 1999
Classes de risque Indicateur de risque Besoin • Une perception fine du risque • (risque du patient X > risque du patient Y) Objectif • Apprendre un indicateur (numérique) de risque Approche • Un critère d’évaluation : la courbe ROC • Un moteur d’optimisation : algorithmes génétiques (problème d’optimisation mixte, combinatoire et numérique)
La courbe ROC(Receiver Operating Characteristics) Évaluation d’un test médical : compromis entre • Taux de vrais positifs (sensibilité médicale) • Taux de vrais négatifs (spécificité médicale) Vrais positifs Faux positifs
Aire sous la courbe ROC Critère plus fiable que la précision(Ling, Huang, Zhang, AI’03) • Insensible à la distribution • Indépendant des coûts d’erreur De plus en plus utilisé en apprentissage supervisé • Ferry, Flach, Hernandez-Orallo, ICML’2002 • Mozer et al., NIPS’01
risque Algorithme, 1 Espace de recherche / espace des hypothèses Combinaison linéaire des attributs h(Ex) = i x atti (Ex) avec (Ex, +/-) Qualité d’une hypothèse : Aire sous la courbe ROC h (risque(Ex), Etiq(Ex)) Trier les exemples par risque croissant ++++-+---++-----+++----------- + : malade (exemple positif pour l’athérosclérose) - : sain (exemple négatif pour l’athérosclérose)
h1: ++++++---- h2 : +++-+++--- h3 : ++-+-++-+- Algorithme, 2 Critèreà optimiser maximiser l’aire sous la courbe ROC minimiser la somme des rangs des ex. positifs rang = 21 rang = 25 rang = 26
Algorithme, 3 Moteur d’optimisation • Stratégies d’évolution (utilisation d’EvolC) Validation expérimentale • 2/3 apprentissage , 1/3 test • 21 exécutions indépendantes • Calcul de la courbe ROC médiane
Évaluation et courbe ROC Courbe médiane, comparaison avec Machines à Vecteurs Supports
Évaluation et courbe ROC Pathologique Risque À risque Normal Individus triés par risque croissant
Analyse de sensibilité Exploitation des 21 runs (algs. Stochastique)
Analyse d’impact le facteur tabac Procédure A = { 100 individus non fumeurs } B = { 100 individus gros fumeurs } Ordonner A et B par risque croissant Tracer (i, risque(i))
Conclusion et perspectives Mériter l’attention d’un expert médecin • Un algorithme stable • Des résultats précis et lisibles La retenir • Explorer des hypothèses : que se passe-t-il si ? • Je fige l’importance de l’alcool, de l’anamnèse familiale que devient l’importance de l’éducation ? • Extension de comités d’experts • Apprendre la fonction d’intérêt de l’utilisateur