110 likes | 250 Views
Problèmes d’apprentissage posés par la régulation de l’expression des gènes. Florence d’Alché-Buc. Extraction des réseaux de régulation géniques : un objectif à long terme. Données d’expression des gènes issues des biopuces. Apprentissage. Informations extraites de bases d’articles. -.
E N D
Problèmes d’apprentissage posés par la régulation de l’expression des gènes Florence d’Alché-Buc
Extraction des réseaux de régulation géniques :un objectif à long terme Données d’expression des gènes issues des biopuces Apprentissage Informations extraites de bases d’articles - + Informations sur les protéines : fonctions : gène Activation (ou inhibition) par le biais D’une protéine
Décomposition en sous-problèmes • Pb 1 : Classification non supervisée de données d’expression • Pb 2 : Extraction de la structure du réseau de régulation • Pb 3 : A structure fixée, modélisation de la dynamique du réseau et • identification de ses paramètres
Présentation du sous-problème 1 : Classification non supervisée de données d’expression Objectif : Regrouper les gènes de profils expérimentaux similaires
Quelles données ? Exemples : (de Jong 2001) : Initiation de la sporulation chez Bacillus Subtilis
Origine des données : les biopuces ou puces à ADN - permettent d’acquérir les différences d'expression entre les gènes et ceci à l'échelle d'un génome complet (ex : génome de la levure : > 6000 gènes) - technologie difficile à mettre en place : Plusieurs techniques : fluorescence, radioactivité …. Données résultantes : bruitées, difficiles à normaliser …
Biopuces Source site ENS : Auteur Philippe Marc
Biopuce : image des intensités lumineuses correspondant aux Taux d’ARN : Source site ENS : Auteur Philippe Marc
Données observées Type 1 : une matrice n x m : n lignes décrivant n gènes, n colonnes Correspondant aux expériences réalisées Type 2 : une matrice n x m : les colonnes correspondent à une seule Expérience mais pour laquelle on a pris différents instants Expérimentaux Type 3 : n x (m1 + m2 + … mp) P expériences sur une même puce : avec mi instants expérimentaux Ensemble de profils cinétiques Profils cinétiques
Exemple de clustering obtenu avec une classification hiérarchique (logiciel d’Eisen, réf : Eisen et al. 1998)
Clustering Type 1 : de nombreuses méthodes peuvent être appliquées : Déjà : classification hiérarchique, K-moyennes, cartes de Kohonen Type 2 : inclure dans les dissimilarités la notion de séquence, mise En correspondance par time warping (utilisé en reconnaisance de Caractères) Ordre de grandeur actuel : milliers de gènes, dimension 100