1 / 70

Sandra Bringay : bringay@lirmm.fr

Fouille de donn ées et santé Octobre 2010. Sandra Bringay : bringay@lirmm.fr. Fouille de données et santé. Protocoles, GBP Connaissances non nominatives collectivement validées. (Charlet, 2002). Dossier Patient. Dossier Patient. Professionnels de santé . Patient,

kerri
Download Presentation

Sandra Bringay : bringay@lirmm.fr

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fouille de données et santé Octobre 2010 Sandra Bringay : bringay@lirmm.fr

  2. Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

  3. Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

  4. Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Projet LAMAL Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

  5. Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

  6. Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Cohortes PAQUID Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

  7. Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Gene Mining Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

  8. Fouille de données de santé • Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs Détecter des Comportements anormaux Analyser des comportements Fouille de données Prédire des comportements Rechercher des critères d’aide à la décision

  9. Fouille de données issues de puces à ADN

  10. Puces à ADN • Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules • Utilisées par les biologistes pour acquérir de grandes quantités de données sur l’expression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : • gènes impliqués dans la maladie ? • gènes dont les expressions sont corrélées ? • gènes qui inhibent ou activent une fonction ? • …. • Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données

  11. Puces à ADN • Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation). • A ≡ T • T ≡ A • G ≡ C • C ≡ G • Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface Expression (couleur)  mesure de la quantité d’ADN dénaturé qui se reforme 1 probe  1 gène

  12. Gènes 12

  13. Gènes Puces 13

  14. Intensité (expression) d’un gène mesuré par une puce Gènes Puces 14

  15. Intensité (expression) d’un gène mesuré par une puce Gènes Puces Très grande densité :Affymetrix U-133 plus 2.0 Array 54,675 probesets 06/08/2014 15

  16. Les motifs séquentiels dans ce contexte…Thèse de P. Salle • Motifs séquentiels : séquences fréquentes d’itemsets ordonnés < ( ) ( ) > • Rechercher des motifs séquentiels pour mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière < (G5 G4) (G6) > • 2 collaborations : • MMDN sur la maladie d'Alzheimer • IRCM sur le cancer du sein.

  17. Maladie d’Alzheimer : problème majeur de la société moderne • Maladie d’Alzheimer (AD) : la forme la plus commune de démence • 26.6 millions de personnes atteintes (2006) • Augmentation du nombre de patients (*4 en 2050) • Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie • MMDN : travaillent sur l’AD et sur le vieillissement à partir d’un modèle animal, Microcebus murinus • Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer) 17

  18. Cancer du sein : première cause de mortalité entre 45 et 64 ans (2004) • Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps. • IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades. • Objectif : déterminer un ensemble de bio-marqueurs suffisants pour typer ces tumeurs. • Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.

  19. Plan • Aider les biologistes à découvrir des nouveautés dans les puces à ADN • Mesurer les écarts fréquents de gènes • Aider les médecins à typer les tumeurs du sein

  20. Plan • Aider les biologistes à découvrir des nouveautés dans les puces à ADN • Mesurer les écarts fréquents de gènes • Aider les médecins à typer les tumeurs du sein

  21. Données biologiques massives Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances 21

  22. Données biologiques massives Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances  Challenge : exploiter toutes ces données en terme de signification biologique 22

  23. Processus général(Bringay, MIE’2009) Fouille de données Motifs séquentiels Clustering et visualisation Sélection de motifs séquentiels Techniques d’ interprétation Nouvelles connaissances biologiques 23

  24. Processus général Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge 24

  25. Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3 25

  26. Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Support = 3/4 26

  27. Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Support = 3/4 • Motifs séquentiels discriminants • Fréquents dans une classe (malades) • Non fréquents dans la classe complémentaire (sains) 27

  28. Trop nombreux (entre 100 et 185,240) • Difficile à interpréter 06/08/2014 28

  29. Processus général Fouille de données Motifs séquentiels Clustering et visualisation Motifs séquentiels sélectionnés Technique d’ interprétation New knowledge 29

  30. Comment comparer les motifs (Saneifar et al., AusDM’08) S75%=<(G1)(G2 G3)> S’75%=< (G2 G3) (G1)> • Mesure de similarité • Gènes communs et non communs • Ordre des gènes • Support 30

  31. Clustering simple (k-means) Collaboration avec PIKKO 31

  32. Clustering simple (k-means) Collaboration avec PIKKO 32

  33. Clustering hiérarchique(Nin Guerero et al., CSBM’09) Un résumé Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d) 33

  34. Clustering hiérarchique Collaboration avec PIKKO 34

  35. Clustering hiérarchique Un résumé 35

  36. Clustering hiérarchique Malade Sain 36

  37. Et les connaissances disponibles en ligne ? 06/08/2014 37

  38. Processus général Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge 38

  39. Interprétation des motifs via les documents(Bringay et al., MedInfo’10) S75%,25%=<(G1)(G2 G3)> Textes Recherche de documents associés avec les gènes des motifs Objectifs: validation + recherche de nouveautés Séquences populaires et innovantes

  40. Visualisation de documents Collaboration avec PIKKO 40

  41. Séquences innovantes associées avec des documents = nouvelle connaissance ayant un signification biologique 06/08/2014 41

  42. Un motif pertinent S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)> Protéines impliquées dans les mécanismes de signalisation et du métabolisme Certaines interfèrent avec les événements cellulaires de la maladie d’Alzheimer 42

  43. Conclusion et perspectives • De nouvelles connaissances pour les biologistes qui leur permettent d’étudier l’impact de l’expression des gènes sur les maladies • Un outil pour rendre ces données manipulables • Perspectives nombreuses :-)) • D’autres types de motifs • Amélioration des visualisations existantes • D’autres types de visualisation • ….

  44. Plan • Aider les biologistes à découvrir des nouveautés dans les puces à ADN • Mesurer les écarts fréquents de gènes • Aider les médecins à typer les tumeurs du sein

  45. Des motifs séquentiels vers… <(G1 G5)(G3)> • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes

  46. Des motifs séquentiels vers… • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> 100 200 300 400 <(G1 G5) (G3)> 97 360 <(G1 G5) (G3)> 97 190 <(G1 G5) (G3)> 97 105

  47. …Motifs à écarts flous(bringay et al., Fuzzyeee’09) • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> • Motifs à écarts flous : basés sur des écarts flous qui expriment l’importance de l’écart entre des gènes ou des groupes de gènes <(G1 G5)(very over expressed 0,8) (G3)> G3 is far much expressed compared to G1 and G5, which are expressed in a similar way

  48. Recherche des motifs à écarts flous < (G1 G5) (G3) >

  49. Recherche des motifs à écarts flous Différence d’Itemset δ(it2; it1): la valeur absolue de la différence entre l’intensité du premier gène de it2 et du dernier de it1 Exemple: M1: δ((G3); (G1 G5)) = Ι5-4Ι=1 M2: δ((G3); (G1 G5)) = Ι12-4.2Ι=7,8

  50. Recherche des motifs à écarts flous Trapezoidal partition 0,5

More Related