710 likes | 859 Views
Fouille de donn ées et santé Octobre 2010. Sandra Bringay : bringay@lirmm.fr. Fouille de données et santé. Protocoles, GBP Connaissances non nominatives collectivement validées. (Charlet, 2002). Dossier Patient. Dossier Patient. Professionnels de santé . Patient,
E N D
Fouille de données et santé Octobre 2010 Sandra Bringay : bringay@lirmm.fr
Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales
Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales
Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Projet LAMAL Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales
Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales
Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Cohortes PAQUID Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales
Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Gene Mining Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales
Fouille de données de santé • Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs Détecter des Comportements anormaux Analyser des comportements Fouille de données Prédire des comportements Rechercher des critères d’aide à la décision
Puces à ADN • Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules • Utilisées par les biologistes pour acquérir de grandes quantités de données sur l’expression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : • gènes impliqués dans la maladie ? • gènes dont les expressions sont corrélées ? • gènes qui inhibent ou activent une fonction ? • …. • Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données
Puces à ADN • Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation). • A ≡ T • T ≡ A • G ≡ C • C ≡ G • Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface Expression (couleur) mesure de la quantité d’ADN dénaturé qui se reforme 1 probe 1 gène
Gènes 12
Gènes Puces 13
Intensité (expression) d’un gène mesuré par une puce Gènes Puces 14
Intensité (expression) d’un gène mesuré par une puce Gènes Puces Très grande densité :Affymetrix U-133 plus 2.0 Array 54,675 probesets 06/08/2014 15
Les motifs séquentiels dans ce contexte…Thèse de P. Salle • Motifs séquentiels : séquences fréquentes d’itemsets ordonnés < ( ) ( ) > • Rechercher des motifs séquentiels pour mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière < (G5 G4) (G6) > • 2 collaborations : • MMDN sur la maladie d'Alzheimer • IRCM sur le cancer du sein.
Maladie d’Alzheimer : problème majeur de la société moderne • Maladie d’Alzheimer (AD) : la forme la plus commune de démence • 26.6 millions de personnes atteintes (2006) • Augmentation du nombre de patients (*4 en 2050) • Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie • MMDN : travaillent sur l’AD et sur le vieillissement à partir d’un modèle animal, Microcebus murinus • Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer) 17
Cancer du sein : première cause de mortalité entre 45 et 64 ans (2004) • Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps. • IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades. • Objectif : déterminer un ensemble de bio-marqueurs suffisants pour typer ces tumeurs. • Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.
Plan • Aider les biologistes à découvrir des nouveautés dans les puces à ADN • Mesurer les écarts fréquents de gènes • Aider les médecins à typer les tumeurs du sein
Plan • Aider les biologistes à découvrir des nouveautés dans les puces à ADN • Mesurer les écarts fréquents de gènes • Aider les médecins à typer les tumeurs du sein
Données biologiques massives Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances 21
Données biologiques massives Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances Challenge : exploiter toutes ces données en terme de signification biologique 22
Processus général(Bringay, MIE’2009) Fouille de données Motifs séquentiels Clustering et visualisation Sélection de motifs séquentiels Techniques d’ interprétation Nouvelles connaissances biologiques 23
Processus général Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge 24
Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3 25
Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Support = 3/4 26
Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Support = 3/4 • Motifs séquentiels discriminants • Fréquents dans une classe (malades) • Non fréquents dans la classe complémentaire (sains) 27
Trop nombreux (entre 100 et 185,240) • Difficile à interpréter 06/08/2014 28
Processus général Fouille de données Motifs séquentiels Clustering et visualisation Motifs séquentiels sélectionnés Technique d’ interprétation New knowledge 29
Comment comparer les motifs (Saneifar et al., AusDM’08) S75%=<(G1)(G2 G3)> S’75%=< (G2 G3) (G1)> • Mesure de similarité • Gènes communs et non communs • Ordre des gènes • Support 30
Clustering simple (k-means) Collaboration avec PIKKO 31
Clustering simple (k-means) Collaboration avec PIKKO 32
Clustering hiérarchique(Nin Guerero et al., CSBM’09) Un résumé Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d) 33
Clustering hiérarchique Collaboration avec PIKKO 34
Clustering hiérarchique Un résumé 35
Clustering hiérarchique Malade Sain 36
Et les connaissances disponibles en ligne ? 06/08/2014 37
Processus général Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge 38
Interprétation des motifs via les documents(Bringay et al., MedInfo’10) S75%,25%=<(G1)(G2 G3)> Textes Recherche de documents associés avec les gènes des motifs Objectifs: validation + recherche de nouveautés Séquences populaires et innovantes
Visualisation de documents Collaboration avec PIKKO 40
Séquences innovantes associées avec des documents = nouvelle connaissance ayant un signification biologique 06/08/2014 41
Un motif pertinent S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)> Protéines impliquées dans les mécanismes de signalisation et du métabolisme Certaines interfèrent avec les événements cellulaires de la maladie d’Alzheimer 42
Conclusion et perspectives • De nouvelles connaissances pour les biologistes qui leur permettent d’étudier l’impact de l’expression des gènes sur les maladies • Un outil pour rendre ces données manipulables • Perspectives nombreuses :-)) • D’autres types de motifs • Amélioration des visualisations existantes • D’autres types de visualisation • ….
Plan • Aider les biologistes à découvrir des nouveautés dans les puces à ADN • Mesurer les écarts fréquents de gènes • Aider les médecins à typer les tumeurs du sein
Des motifs séquentiels vers… <(G1 G5)(G3)> • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes
Des motifs séquentiels vers… • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> 100 200 300 400 <(G1 G5) (G3)> 97 360 <(G1 G5) (G3)> 97 190 <(G1 G5) (G3)> 97 105
…Motifs à écarts flous(bringay et al., Fuzzyeee’09) • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> • Motifs à écarts flous : basés sur des écarts flous qui expriment l’importance de l’écart entre des gènes ou des groupes de gènes <(G1 G5)(very over expressed 0,8) (G3)> G3 is far much expressed compared to G1 and G5, which are expressed in a similar way
Recherche des motifs à écarts flous < (G1 G5) (G3) >
Recherche des motifs à écarts flous Différence d’Itemset δ(it2; it1): la valeur absolue de la différence entre l’intensité du premier gène de it2 et du dernier de it1 Exemple: M1: δ((G3); (G1 G5)) = Ι5-4Ι=1 M2: δ((G3); (G1 G5)) = Ι12-4.2Ι=7,8
Recherche des motifs à écarts flous Trapezoidal partition 0,5