1 / 37

Exploration des données SAGE humaines

Exploration des données SAGE humaines. AD Dico Challenge 3/11/2003 Sylvain Blachon (Doctorant EDIIS CGMC/LIRIS) Sous la co tutelle de : J.F. Boulicaut (LIRIS) O. Gandrillon (CGMC) Thèse financée par la Ligue contre le cancer. Question biologique. Etude des cancers

Download Presentation

Exploration des données SAGE humaines

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Exploration des données SAGE humaines AD Dico Challenge 3/11/2003 Sylvain Blachon(Doctorant EDIIS CGMC/LIRIS) Sous la co tutelle de : J.F. Boulicaut (LIRIS) O. Gandrillon (CGMC) Thèse financée par la Ligue contre le cancer.

  2. Question biologique • Etude des cancers • Objectif : comprendre pourquoi certains groupes de gènes sont exprimés par certaines tumeurs • Etude de l’expression des gènes par la technique SAGE

  3. La technique SAGE • Méthode pour explorer le transcriptome • Avantages : données « quantitatives » =>comparaison entre expériences possibles (à l’inverse des puces) Ensemble des ARNm   ADN     ARNm Protéines 2 1 1 1 1 Ensemble des tags = Librairie SAGE Situation biologique

  4. Données SAGE humaines • Données issues du Cancer Genome Anatomy Project : aujourd’hui 260 librairies disponibles gratuitement sur Sage Genie (majoritairement Hs) • Données de décembre 2002 : 180 librairies humaines. • Données hétérogènes (cellules de tissus ou en culture, beaucoup de tissus différents, cellules tumorales ou normales…) • Beaucoup d’infos manquantes…

  5. Exploration de ces données • A la main : travail de titan • Méthode différentielle : limitée • Méthode globale : => Matrice d’expression

  6. G-protein-coupled receptor related to chemokine receptors splicing factor G protein-coupled receptor and KH type splicing regulatory protein KSRP => KIAA0340 gene (true in 8 different cell types). member of the RAS gene superfamily Notre objectif • Extraction de règles biologiquement stimulantes :

  7. Données SAGE Extr. motifs Post traitement Expert Connaissances Prétraitement Discrétisation - Sélection - Comparaison Exploration des données : techniques inductives • Grandes quantités de données => besoin d’outils permettant d’extraire des connaissances de ces données • Schéma classique :

  8. Prétraitement des données (1/3) • Données SAGE humaines : sélection des librairies de plus de 20 000 tags séquencés (Becquet et al) • 90 librairies

  9. Prétraitement des données (2/3) • Sélection des tags: • Non ambigus (1 seul identifiant Unigene) • Dont la quantité est d’au moins 2 dans une librairie • 2 matrices d’expression humaines: • 74x822 : données de Juin 2001, sélection du transcriptome minimal (Velculescu) • 90x27679 : données décembre 2002

  10. Prétraitement des données (3/3) • Les biologistes décident de coder des propriétés d’expression => matrices booléennes • Nous nous intéressons aux gènes surexprimés => discrétisation de la matrice d’expression • on considère la valeur d ’expression de chaque gène dans toutes les situations biologiques • on affecte 1 chaque fois que le gène est surexprimé • A ce jour, 3 techniques pour coder la surexpression d ’un gène • La discrétisation est une étape OUVERTE.

  11. Données SAGE Extr. motifs Post traitement Expert Connaissances Prétraitement Discrétisation - Sélection - Comparaison Exploration des données : techniques inductives • Schéma classique : • 2 types de motifs extraits : • Règles d’association logiques • Concepts

  12. Extraction de règles d’association (1/6) • Règles d’association : X => Y Si Gene A et Gene B surexprimés => Gene C et Gene D surexprimés aussi • Support(AB=>CD) = Supp(ABCD) • Confiance (AB=>CD) = Supp(ABCD)/Supp(AB) • Règles logiques : confiance =1 • Cas concret : • Si support minimal = 50% 7 ensembles fréquents : A, B, D, AB, AD, BD, ADB 3 règles logiques et fréquentes : B=>A D=>A BD=>A

  13. Extraction de règles d’association (2/6) • Extraction sur la matrice 74x822 (Becquet et al, 2002) • Utilisation de l’algorithme Min-Ex : • basé sur l’extraction des ensembles libres • à partir libres, on extrait des règles dont le membre gauche est minimal

  14. Extraction de règles d’association (3/6) • Deux grands traits sont présents : • gènes ribosomaux • gènes mitochondriaux • A l’intérieur d’un jeu de règles homogène • Ré-identification d’un gène mal identifié • Proposition de la fonction d’une EST • Possibilité d’associer des cellules

  15. G-protein-coupled receptor related to chemokine receptors splicing factor G protein-coupled receptor and KH type splicing regulatory protein KSRP => KIAA0340 gene (true in 8 different cell types). member of the RAS gene superfamily Extraction de règles d’association (4/6) • Extraction de règles biologiquement stimulantes :

  16. Extraction de règles d’association (5/6) • Extraction sur la matrice 90x27679 : l’algorithme atteint ses limites

  17. Extraction de règles d’association (6/6) • Solution envisagée (GREYC) : • Transposition de la matrice • Extraction sur les situations biologiques • Passage par la connexion de Galois pour extraire des concepts • Le contexte permet l’extraction des concepts à l’aide de nos extracteurs (Ac-miner ; Mv-miner)

  18. La notion de concept (1/4) • Un concept est un groupe reliant deux ensembles : • un ensemble de gènes • un ensemble de librairies • Exemple : 4 gènes surexprimés dans 4 librairies.

  19. La notion de concept (2/4) Connexion de Galois: Formalisme mathématique qui rend compte des relations décrites par la matrice binaire Soit L = ensemble des librairies , T = ensemble des tags 2 fonctions : f : L → T g : T → L

  20. La notion de concept (3/4) • Ensemble fermé : Soit l un ensemble de librairies et t un ensemble de tags. l est fermé ssi gof(l) = g(f(l)) = l. t est fermé ssi fog(t) = f(g(t)) = t. • Concept = paire (l,t) tel que : • f(l)=t et g(t) = l • Où l et t sont des fermés t.q. gof (l) = l.

  21. La notion de concept (4/4) • Concrètement : f et g : f({L1}) = {B,C,E} f({L1,L3,L4}) = {B,C} g({A}) = {L4} g({B,C}) = {L1,L3,L4} Fermés : g(f({L1})) = g({B,C,E}) = {L1} g(f({L1,L3}) = g({B,C}) = {L1,L3,L4} Concepts de cette matrice : ({L1}, {B,C,E}) ; ({L3}, {B,C,D}) ; ({L4}, {A,B,C}) ; ({L2,L3}, {D}) ; ({L1,L3,L4}, {B,C}) ;

  22. Extraction de concepts (1/2) • A partir des ensembles libres on peut calculer l’ensemble des fermés. • Notre stratégie : • pour calculer l’ensemble des concepts, on calcule tous les libres sur la matrice transposée • on calcule alors leur fermeture • on en déduit les concepts

  23. Extraction de concepts (2/2) • Conclusion : • On règle un verrou technologique … • … et on obtient une nouvelle information biologiquement intéressante : le lien entre des groupes de gènes et des situations biologiques qui les surexpriment (Rioult et al, KDID’03)

  24. Données SAGE Extr. motifs Post traitement Expert Connaissances Prétraitement Discrétisation - Sélection - Comparaison Exploration des données : techniques inductives • Schéma classique : • 2 post traitements : • Sélection des concepts d’intérêt • Outil de visualisation

  25. PostTraitement (1/3) • Nécessité d’interroger une collection de concepts • 1er outil : sélection de concepts d’intérêt • 4 critères : • Homogénéité des librairies (ex : carcinoma) • Présence d’un ensemble de gènes d’intérêt • Nombre de librairies dans le concept • Nombre de tags dans le concept • Possibilité de les combiner (conjonction)

  26. PostTraitement (2/3) • L’outil de sélection permet de diminuer drastiquement le nombre de concepts à analyser

  27. PostTraitement (3/3) • 2ème outil : outil de visualisation des concepts (Ruggero Pensa et Céline Robardet) • Classification hiérarchique des concepts • Piste extrêmement prometteuse car classification d’interactions entre les objets que l’on étudie

  28. Interprétation biologique (1/3) • Faire du sens : Gene Ontology (GO) • vocabulaire décrivant les gènes • termes GO classés dans 3 catégories : • Processus biologique • Localisation subcellulaire • Fonction moléculaire • Ontologie structurée : graphe diacyclique

  29. Interprétation biologique (2/3) • outil web Fatigo • En entrée : une liste de gènes • En sortie : la proportion de gènes pour chaque terme de GO de notre liste qui le partage • => vision globale des processus biologiques à partir d’un ensemble de gènes d’intérêt

  30. Interprétation biologique (3/3)

  31. Perspectives (1/2) • Prétraitement • Evaluation de la discrétisation sur les motifs extraits • Utilisation de nouvelles discrétisations sur données SAGE • Utilisation d’Identitag pour identifier les tags • Utilisation des concepts • Développer des méthodes de post-traitement • Affiner celles existantes (disjonction, …)

  32. Perspectives (2/2) • Et les règles ? • A partir de concepts d’intérêt, extraire les règles sur une matrice réduite • Extraction de règles δ-fortes • Utilisation des mesures d’intérêt • Coupler notre méthode d’extraction avec d’autres méthodes (clustering, analyse statistiques, etc.) • Test d’un scénario complet d’extraction de concepts intéressants • Utiliser ces outils sur des données SAGE de poulet

  33. CGMC BECQUET Céline BRESSON Corinne DERRINGTON Edmund DAMIOLA Francesca DAZY Sébastien FAURE Claudine GANDRILLON Olivier GIRAUD Sandrine KEIME Céline ROBARDET Céline LIRIS BESSON Jérémy BOULICAUT Jean-François JEUDY Baptiste PENSA Ruggero Prisma ROBARDET Céline GREYC CREMILLIEUX Bruno RIOULT François Remerciements

  34. Merci de votre attention 

  35. 0 1 Prétraitement des données (4/4) Données binaires 0 1 0 1 2 2 max moins x% Max Max Max – – – 25% 25% 25% Max Max Max Librairie 1 1 1 0 0 10 10 20 20 30 30 40 40 50 50 60 60 70 70 Niveau d’expression du gène 2 Milieu Données Continues Librairie 1 1 0 10 10 20 20 30 30 40 40 50 50 60 60 70 70 Niveau d’expression du gène 2 2 2 x% des valeurs les plus hautes 5% les plus exprim 5% les plus exprim 5% les plus exprim é é é s s s Librairie 1 1 1 1 0 0 0 10 10 10 10 20 20 20 20 30 30 30 30 40 40 40 40 50 50 50 50 60 60 60 60 70 70 70 70 Niveau d’expression du gène

  36. Gènes particuliers… (1/2) • Gènes Growth factor

  37. Gènes particuliers… (2/2) • Gènes liés au cerveau

More Related