Sandra Bringay : bringay@lirmm.fr

Fouille de données et santé Octobre 2010 Sandra Bringay : bringay@lirmm.fr

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Projet LAMAL Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Cohortes PAQUID Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Gene Mining Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données de santé • Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs Détecter des Comportements anormaux Analyser des comportements Fouille de données Prédire des comportements Rechercher des critères d’aide à la décision

Fouille de données issues de puces à ADN

Puces à ADN • Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules • Utilisées par les biologistes pour acquérir de grandes quantités de données sur l’expression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : • gènes impliqués dans la maladie ? • gènes dont les expressions sont corrélées ? • gènes qui inhibent ou activent une fonction ? • …. • Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données

Puces à ADN • Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation). • A ≡ T • T ≡ A • G ≡ C • C ≡ G • Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface Expression (couleur)  mesure de la quantité d’ADN dénaturé qui se reforme 1 probe  1 gène

Gènes 12

Gènes Puces 13

Intensité (expression) d’un gène mesuré par une puce Gènes Puces 14

Intensité (expression) d’un gène mesuré par une puce Gènes Puces Très grande densité :Affymetrix U-133 plus 2.0 Array 54,675 probesets 06/08/2014 15

Les motifs séquentiels dans ce contexte…Thèse de P. Salle • Motifs séquentiels : séquences fréquentes d’itemsets ordonnés < ( ) ( ) > • Rechercher des motifs séquentiels pour mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière < (G5 G4) (G6) > • 2 collaborations : • MMDN sur la maladie d'Alzheimer • IRCM sur le cancer du sein.

Maladie d’Alzheimer : problème majeur de la société moderne • Maladie d’Alzheimer (AD) : la forme la plus commune de démence • 26.6 millions de personnes atteintes (2006) • Augmentation du nombre de patients (*4 en 2050) • Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie • MMDN : travaillent sur l’AD et sur le vieillissement à partir d’un modèle animal, Microcebus murinus • Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer) 17

Cancer du sein : première cause de mortalité entre 45 et 64 ans (2004) • Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps. • IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades. • Objectif : déterminer un ensemble de bio-marqueurs suffisants pour typer ces tumeurs. • Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.

Plan • Aider les biologistes à découvrir des nouveautés dans les puces à ADN • Mesurer les écarts fréquents de gènes • Aider les médecins à typer les tumeurs du sein

Données biologiques massives Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances 21

Données biologiques massives Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances  Challenge : exploiter toutes ces données en terme de signification biologique 22

Processus général(Bringay, MIE’2009) Fouille de données Motifs séquentiels Clustering et visualisation Sélection de motifs séquentiels Techniques d’ interprétation Nouvelles connaissances biologiques 23

Processus général Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge 24

Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3 25

Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Support = 3/4 26

Recherche de motifs séquentiels (Salle, AIME 2009) <(G2)(G1 G5)(G3)> Support = 3/4 • Motifs séquentiels discriminants • Fréquents dans une classe (malades) • Non fréquents dans la classe complémentaire (sains) 27

Trop nombreux (entre 100 et 185,240) • Difficile à interpréter 06/08/2014 28

Processus général Fouille de données Motifs séquentiels Clustering et visualisation Motifs séquentiels sélectionnés Technique d’ interprétation New knowledge 29

Comment comparer les motifs (Saneifar et al., AusDM’08) S75%=<(G1)(G2 G3)> S’75%=< (G2 G3) (G1)> • Mesure de similarité • Gènes communs et non communs • Ordre des gènes • Support 30

Clustering simple (k-means) Collaboration avec PIKKO 31

Clustering simple (k-means) Collaboration avec PIKKO 32

Clustering hiérarchique(Nin Guerero et al., CSBM’09) Un résumé Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d) 33

Clustering hiérarchique Collaboration avec PIKKO 34

Clustering hiérarchique Un résumé 35

Clustering hiérarchique Malade Sain 36

Et les connaissances disponibles en ligne ? 06/08/2014 37

Processus général Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge 38

Interprétation des motifs via les documents(Bringay et al., MedInfo’10) S75%,25%=<(G1)(G2 G3)> Textes Recherche de documents associés avec les gènes des motifs Objectifs: validation + recherche de nouveautés Séquences populaires et innovantes

Visualisation de documents Collaboration avec PIKKO 40

Séquences innovantes associées avec des documents = nouvelle connaissance ayant un signification biologique 06/08/2014 41

Un motif pertinent S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)> Protéines impliquées dans les mécanismes de signalisation et du métabolisme Certaines interfèrent avec les événements cellulaires de la maladie d’Alzheimer 42

Conclusion et perspectives • De nouvelles connaissances pour les biologistes qui leur permettent d’étudier l’impact de l’expression des gènes sur les maladies • Un outil pour rendre ces données manipulables • Perspectives nombreuses :-)) • D’autres types de motifs • Amélioration des visualisations existantes • D’autres types de visualisation • ….

Plan • Aider les biologistes à découvrir des nouveautés dans les puces à ADN • Mesurer les écarts fréquents de gènes • Aider les médecins à typer les tumeurs du sein

Des motifs séquentiels vers… <(G1 G5)(G3)> • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes

Des motifs séquentiels vers… • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> 100 200 300 400 <(G1 G5) (G3)> 97 360 <(G1 G5) (G3)> 97 190 <(G1 G5) (G3)> 97 105

…Motifs à écarts flous(bringay et al., Fuzzyeee’09) • Motifs séquentiels :Ne sont pas facilement • Compréhensible et manipulables par les experts • Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> • Motifs à écarts flous : basés sur des écarts flous qui expriment l’importance de l’écart entre des gènes ou des groupes de gènes <(G1 G5)(very over expressed 0,8) (G3)> G3 is far much expressed compared to G1 and G5, which are expressed in a similar way

Recherche des motifs à écarts flous < (G1 G5) (G3) >

Recherche des motifs à écarts flous Différence d’Itemset δ(it2; it1): la valeur absolue de la différence entre l’intensité du premier gène de it2 et du dernier de it1 Exemple: M1: δ((G3); (G1 G5)) = Ι5-4Ι=1 M2: δ((G3); (G1 G5)) = Ι12-4.2Ι=7,8

Recherche des motifs à écarts flous Trapezoidal partition 0,5

Sandra Bringay : bringay@lirmm.fr

Sandra Bringay : bringay@lirmm.fr

Presentation Transcript

Sandra Burke

Sandra

Sandra Cisneros

Sandra Billingsley

SANDRA CISNEROS

Sandra Fachelli

Sandra Ronchi

Sandra Bem

Sandra Cisneros

Sandra Cisneros

5a Sandra

Sandra Cisneros

SANDRA WILLARD

Sandra Bullock

Sandra Cisneros

Processkarta Sandra

Sandra Turner

SANDRA

Sandra Gallagher

Sandra Plessim

Sandra Bullock

SANDRA CISNEROS