380 likes | 495 Views
Julie Chabalier Post-doctorante Université Rennes 1 Équipe « Modélisation Conceptuelles des Connaissances Biomédicales ». Parcours. Marseille. Maîtrise de Biologie Cellulaire (1999) DESS Compétences Complémentaires en Informatique (2000) Doctorat en Informatique (2004)
E N D
Julie Chabalier Post-doctorante Université Rennes 1Équipe « Modélisation Conceptuelles des Connaissances Biomédicales »
Parcours Marseille • Maîtrise de Biologie Cellulaire (1999) • DESS Compétences Complémentaires en Informatique (2000) • Doctorat en Informatique (2004) • Soutenu le 6 avril 2004 – mention très honorable • « Acquisition incrémentale et représentation des systèmes intégrés bactériens par une approche orientée objet » • 1/2 ATER (2004 - 2005) • Qualifications sections 64, 65, 27 (2005) • Post-doctorante Université de Rennes 1 (2005 – 2008) Rennes Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Enseignements ++ niveau/ nb heures • Initiation à la bioinformatique • Grandes banques/bases de données • Concepts majeurs de la bioinformatique • Représentation des connaissances biologiques • Bio-ontologies • Web Sémantique • Initiation à l’informatique • Bureautique - Algorithmique • Conception, implémentation, interrogation de bases de données • Modélisation MERISE- UML • Langage SQL – MySQL Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Représentation des connaissances biologiques Informatique : représentation des connaissances • axe principal de recherche en Intelligence Artificielle (IA) • représentation des connaissances humaines dans un langage informatique • utilisation de ces connaissances par un ordinateur pour effectuer des raisonnements Bioinformatique : représentation des connaissances biologiques • construction, exploitation et partage des modèles biologiques complexes • méthodes de représentation issues de l’IA • mécanisme de raisonnements : obtention de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Quelques notions… Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique 1 Classes et associations pour représenter les concepts biologiques et leur relations 2 Variables ou attributs pour représenter les propriétés biologiques 2 Relation de spécialisation pour représenter les concepts biologiques spécifiques (héritage) 3 Langage informatique pour que la modélisation soit compréhensible par l’ordinateur 4 Objets ou instances pour représenter les objets biologiques 5 Classification d’objet pour enrichir les connaissances d’une manière cohérente Protéine Est composé de Système_intégré Type nbPartenaire proteineAffine Fonction Réalise Transporteur_ABC Transport ABC Réalise Systeme d’import Systeme d’export class: Assembly variables: variable: Type type: string variable: PartnersNb type: integer variable: SBP type: boolean class: ABC super-class: ASSEMBLY variables: variable: Type domain: {"ABC"} class: ImportABC super-class: ABC variables: variable: SBP domain: {true} instance : BSUBA01_OPUBA is-a : Systeme Intégré type = "ABC" nbpartenaires = 4 SBP = true Base de connaissances : technique orientée instances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Quelques notions… • Ontologie • Technique de représentation issue de l’IA • Obtention d’un consensus sur le sens des concepts employés dans une communauté (définitions textuelle, synonymes…) • Technique orientée classes et relations • Utilisation • modélisation d’une base de connaissances • réalisation d’un système d’annotation • réalisation d’un système d’indexation documentaire Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
système_intégré Type nbPartenaire proteineAffineC Intégration automatique transporteur_ABC systeme d’import systeme d’export cellular component is_a is_a macromolecular complex cell part is_a is_a membrane part protein complex is_a is_a ATP-binding cassette (ABC) transporter complex ABCA7_HUMAN ABCB8_HUMAN ABCD2_HUMAN … A complex for the transport of metabolites into and out of the cell, typically comprised of four domains; two membrane-associated domains and two ATP-binding domains at the intracellular face of the membrane, that form a central pore through the plasma membrane. Each of the four core domains may be encoded as a separate polypeptide or the domains can be fused in any one of a number of ways into multidomain polypeptides. In Bacteria and Archaebacteria, ABC transporters also include substrate binding proteins to bind substrate external to the cytoplasm and deliver it to the transporter. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Travaux de recherche Trois axes complémentaires de recherche : 1. Représentation des connaissances biologiques 2. Exploitation des connaissances ontologiques 3. Intégration d’ontologies biomédicales Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « ISYMOD » (thèse octobre 2000 – avril 2004) 1. Représentation des connaissances biologiques Objectif : Élaboration d’une base de connaissances dédiées à la représentation des systèmes intégrés bactériens Originalité : représentation dans un même environnement des connaissances sur les systèmes intégrés et des connaissances méthodologiques permettant l’identification et la reconstruction de ces systèmes à partir de génomes complètement séquencés Méthode : utilisation du langage de représentation AROM (inria + lif) + extension du mécanisme de classification (version…) Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Prédiction des partenaires Entrée : Protéome Sortie : Candidats Approche par similitude Données externes Base de connaissances méthodologiques Approche par motifs Entrée : Motifs Exploitation Identification Base de connaissances de domaine Classification Projet « ISYMOD » chabalier et al., 2005 Bioinformatics 1; 21(7):1246-56. 100 génomes procaryotes traités 13641 partenaires protéiques 5328 transporteurs ABC reconstruits Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « Analyse transversale » (postdoc 2004 – 2006) 2. Exploitation des connaissances ontologiques Objectif : Interprétation des données d’expression par l’exploitation des connaissances structurées au sein d’une ontologie Originalité : utilisation des connaissances structurées dès le début de l’interprétation des données (avant le clustering) Méthode : construction de réseauxdeprotéinesparcomparaison des termes de Gene Ontology (GO) - association de ces réseaux aux données d’expression Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
réprimé sim(SLC11A2-TF) = 0,66 surexprimés Profil biologique Ion transport Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Activation d’une voie de biosynthèse du précurseur de la créatine • Répression de la biosynthèse de polyamine • Rôle potentiel de détoxification de l’entérocyte chabalier et al. BMC Bioinformatic, 8:235 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « Biomed » (postdoc 2006 – 2008) 3. Intégration d’ontologies biomédicales Objectif : Associer les maladies et les voies métaboliques Originalité : Intégration des ontologies médicales et biologiques Méthode : mise en correspondance les termes de 3 ontologies : Gene ontology - Kegg - Snomed CT • comparaison lexicale • comparaison des gènes impliqués dans une maladie et une voie métabolique Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
KO: Human diseases SN: Disorder of brain KO: Neurodegenerative disorders SN: Organic mental disorder KO: Alzheimer's disease APP BACE1 BACE2 PSEN1 PSEN2 … SN: Dementia SN: Alzheimer's disease GO: cell cycle GO: cell-cell signaling GO: Transport chabalier et al. Stud Health Technol Inform. 129:791-5. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet - Recherche Représentation et classification automatique des systèmes intégrés bactériens en fonction de différents points de vue Actuellement: classification des transporteurs ABC en fonction de la présence ou non de la protéine affine automatisé dans ISYMOD Les partenaires des transporteurs évoluent de façon concertées Les familles de transporteurs correspondent à de grandes familles de substrats pas indépendant : les transporteurs d’une même classe de substrat ont une origine commune Classer les transporteurs en fonction d’un point de vue évolutif Classer les transporteurs en fonction d’un point de vue fonctionnel Combiner les résultats pour valider les classifications Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Cours terme Le point de vue fonctionnel Chebi Classification des petites molécules natural product système_intégré Type nbPartenaire proteineAffineC carbohydrate lipid transporteur_ABC oligosaccharide monosaccharide systeme d’import systeme d’export aldose pentose disaccharide ABC 4 ABC 2 ABC 3 glycosylglucose aldopentose ABC 1 maltose lactose ribose Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Long terme - le point de vue évolutif Pas d’ontologie sur les paralogues Etudier la représentation des classes de paralogues sous forme d’ontologies - ontologie basée sur un arbre phylogénétique? - ontologie de séquences? Organiser automatiquement les transporteurs ABC en fonction de ces classes Comparer automatiquement les points de vue Utilisation des mécanismes de raisonnement de l’intelligence artificielle Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet - Enseignements • Bioinformatique • Concepts mis en œuvre dans les méthodes bioinformatiques • Alignement de séquences • Analyse de génomes • Phylogénie • Prédiction fonctionnelle • Grandes banques de données biologiques • Bio-ontologies – représentation des connaissances biologiques • Informatique • Initiation à l’informatique • Bureautique • Bases de données Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Genbank Travaux de recherche : problématique biologique Etude des modèles biologiques complexes nécessite : - Description des entités biologiques impliquées - Description des relations qu’entretiennent ces entités Ces modèles biologiques sont généralement proposés par comparaison avec des modèles connus Limitation : Les sources de connaissances sont de plus en plus nombreuses, hétérogènes et distribuées comparaison des connaissances est une tâche complexe (beaucoup de connaissances) et difficile (modèles riches) Besoin : - Représenter les connaissances biologiques de façon précise et non ambigüe - Automatiser la génération de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche 2004 • Laboratoire de Chimie Bactérienne (LCB) Laboratoire d’Informatique Fondamentale (LIF) • Problématique biologique • Étude des relations fonctionnelles entre les partenaires des systèmes intégrés bactériens • Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique • Système modèle : transporteur ABC • Élaboration d’une stratégie d’analyse des systèmes • Prédiction des partenaires protéiques • Reconstruction des systèmes fonctionnels • Automatisation de la stratégie d’analyse • Gestion automatique de la cohérence des connaissances biologiques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
SBP MSD MSD Membrane cytoplasmique NBD NBD Cytoplasme Recherche – La stratégie d’analyse • Stratégie d’analyse des transporteurs ABC Protéome Identification des domaines fonctionnels • Motifs • Similarité • Proximité chromosomique • Compatibilité des sous-familles Reconstruction des systèmes fonctionnels Eucaryotes : 1 système = 1 protéine Procaryotes : 1 système = 1 assemblage Transporteurs ABC Computers & Chemistry, 2002 Toutes les étapes de la stratégie nécessitent une communication étroite entre les méthodes d’analyse et une base de données Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Données externes Base de connaissances méthodologiques Exploitation Identification Base de connaissances de domaine Classification Recherche – Automatisation de la stratégie • Besoin : • Automatisation de la stratégie • Gestion de la cohérence des connaissances biologiques • Contrôle du flux de données entre les méthodes • Gestion des échanges entre les méthodes et la base de données Solution : • Développement de l’entrepôt de connaissances ISYMOD Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Protéine nom:string Ident:string Long: integer Système Intégré typ:string nbPart:integer Est composé de début:integer fin:integer Familledom:string Domaine type:string nbTM:integer Système à deux composants stimulus:string Transporteur ABC transport:string Recherche – Modélisation du domaine ISYMOD - domaine Structure de modélisation du domaine • Entités biologiques : classes/sous-classes • Relations entre entités : associations/sous-associations • Propriétés : variables de classes/d’associations • 36 Classes – 21 associations • Systèmes intégrés • Données brutes • Résultats des méthodes IEEE Intelligent Systems, 2002 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Approche par motifs Entrée : Motifs Recherche – Modélisation des tâches ISYMOD - tâches Structure de modélisation des tâches Prédiction des partenaires Entrée : Protéome Sortie : Candidats Approche par similitude • Relation de spécialisation • Relation de composition • Résolution des tâches élémentaires par des méthodes • Entrées/sorties = instances du domaine • 36 tâches – 16 méthodes de résolution • 100 génomes procaryotes traités • 13641 partenaires protéiques • 5328 transporteurs ABC reconstruits Classification automatique des connaissances RSTI série l’Objet, 2003 Bioinformatics, 2005 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche 2007 • Université de Rennes 1 Équipe d’Accueil Modélisation Conceptuelles des Connaissances Biomédicales (EA MCCB) Étude des relations fonctionnelles entre produits de gènes Étude des relations maladies – voies métaboliques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Analyse transversale • Problématique biologique • Étude des relations fonctionnelles entre produits de gènes • Hypothèses : • les gènes d’un groupe d’expression partagent des fonctions communes • plusieurs fonctions sont impliquées dans un processus biologique Différences d’expression au sein d’un même processus biologique • Prédiction de réseaux fonctionnels de produits de gènes à partir de l’ensemble des gènes déposés sur une puce • Visualisation combinée réseaux-données d’expression Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Prédiction des réseaux • Calcul de la similarité sémantique des produits de gènes • Comparaison des termes de Gene Ontology (processus biologiques) • Méthode des modèles d’espace vectoriel • Un gène = un vecteur de termes GO • Pondération en fonction de la représentativité de l’annotation • Produit normalisé des vecteurs • Matrice de similarité sémantique Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Visualisation • Visualisation des réseaux • Relations entre produits de gènes lorsque score de similarité > seuil • Association avec données d’expression Groupe d’expression Matrice de similarité Profil biologique Ion transport Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Résultats • Application sur des gènes impliqués dans la différenciation entérocytaire (186 gènes ) • 18 réseaux de produits de gènes (2 à 12 produits de gènes) • Mise en évidence de nouvelles pistes de recherche Exemple : Métabolisme des amines • Processus de détoxification • Connu pour le rein • Non décrit pour l’entérocyte Proceedings of the Workshop on Biomedical Ontologies and Text Processing - ECCB'2005 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Caractérisation des maladies • Problématique biomédicale • Étude des relations entre maladies et voies métaboliques • Organisation actuelle des maladies signes cliniques, causes, entités anatomiques • Exemple : ontologie SNOMED CT • Besoins de caractériser les maladies • Associations classes de maladies – classes de gènes • Associations maladies – voies métaboliques/ processus biologiques • Ontologie de maladies • Intégration d’ontologies médicales et biologiques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Intégration d’ontologies • Méthodologie d’intégration • Choix des sources • SNOMED – CT • KEGG Orthology • Gene Ontology • Formalisation des sources • langage OWL • Intégration • Mise en correspondance (Mapping) • Alignement Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Résultats • Application à 3 maladies : Gliome – Alzheimer - Leucémie • Visualisation avec l’éditeur « Protégé » • Exemples de requêtes : processus communs à 2 maladies • Maladies neurologiques (Gliome-Alzheimer) : 8 processus (86 avec les parents) • Cancers (Gliome – Leucémie) : 44 processus (165 avec les parents) Proceedings of Medinfo 2007 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet – Recherche • Équipe IMGT – laboratoire IGH • Projet IMGT • Collection de bases de données biologiques • Immunoglobulines/Récepteurs cellule T/Complexes d’histocompatibilité • Ensemble d’outils bioinformatiques • Analyse de séquences/Analyse de génomes/Analyse de structure 3D • Quantité importante de données hétérogènes (≠ syntaxe/sémantique) • Besoins • Gestion de la cohérence des connaissances et de l’interopérabilité des outils développés • Projet • Modélisation formelle des connaissances biomédicales • Modélisation du domaine • Modélisation des tâches Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet – Recherche : approches proposées • IMGT domaine • Modélisation en OWL des connaissances • Basée sur IMGT-ONTOLOGY (XML syntaxe) • Mécanisme de classification : cohérence des connaissances • Requêtes spécifiques • IMGT tâches • Modélisation en OWL des services Web • Basée sur IMGT-CHOREOGRAPHY • Enrichissement de l’ontologie OWL-S • Enchaînement automatique des services Web • Proposition de stratégies d’analyse cohérentes: • Incorporation de méthodes propres à IMGT + services proposés sur le Web • Inférence automatique de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Prédiction des partenaires Entrée : Protéome Sortie : Candidats Approche par similitude Approche par motifs Entrée : Motifs Projet « ISYMOD » Classification automatique des connaissances • Base de connaissances de domaine • 36 Classes – 21 associations • Systèmes intégrés • Données brutes • Résultats des méthodes • Base de connaissances méthodologique • 36 tâches – 16 méthodes de résolution • 100 génomes procaryotes traités • 13641 partenaires protéiques • 5328 transporteurs ABC reconstruits chabalier et al., 2005 Bioinformatics 1; 21(7):1246-56. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008