560 likes | 759 Views
Les ontologies : concepts et applications en génomique. Bernard Jacq, M2 BBSG 2008 Module GF. Les ontologies : concepts et applications en génomique. Plan du cours - Introduction : Pourquoi des ontologies, définitions - Description détaillée des ontologies
E N D
Les ontologies : concepts et applications en génomique Bernard Jacq, M2 BBSG 2008 Module GF
Les ontologies : concepts et applications en génomique • Plan du cours • - Introduction : Pourquoi des ontologies, définitions • - Description détaillée des ontologies • - La construction d’ontologies • - Un exemple concret d’ontologie : Gene Ontology (GO)
Pourquoi utiliser des ontologiesen Biologie ? • Les ontologies sont une réponse possible, amenée par l’informatique, à plusieurs besoins grandissants de l’ère post-génomique : • La nécessité de disposé d’un vocabulaire contrôlé pour décrire notamment l’aspect fonctionnels des gènes et des protéines. • La nécessité de disposer de descriptions qui soient valables pour toutes les espèces ou le plus grand nombre d’espèces possibles. • La nécessité de structurer et hiérarchiser ces connaissances. • La nécessité d’avoir un mode de description utilisable par un ordinateur
Définitions: donnée, information, connaissance • Il existe un continuum de complexité et de contenu informationnel croissant entre : donnée, information et connaissance • donnée : … --- … • information : SOS • connaissance : en cas d’alerte, déclencher les secours • La connaissance permet de produire de nouvelles données, informations, connaissances : inférence
Définition des ontologies • Ethymologiquement, du grec, (participe présent du verbe être), "Partie de la métaphysique qui étudie l’être en tant qu’être, étude des propriétés générales de ce qui existe" (cf Aristote, théorie des Catégories). • Ultérieurement, terme utilisé en histoire de la médecine : étude de l’être de la maladie: doctrine qui prétend étudier l’être de la maladie – des fièvres, notamment – comme si l’être de la maladie existait conformément à un type bien défini, à l’essence. (Robert, Dictionnaire historique de la langue française, Alain Rey, 1994) • En Informatique : • Gruber " Specification of a conceptualization " • Schulze-Kremer "Concise and unambiguous description of principle relevant entities with their potential, valid relations to each other " Crédit: Christine Froidevaux
Comment représenter des connaissances dans un ordinateur ? • Il existe au moins 4 modes, de richesse croissante, permettant de décrire des connaissances sous une forme essentiellement textuelle : • Listes • Thesauri • Taxonomies • Ontologies NB : Il existe d’autres modes, plus structurés, de stockage des données et représentation des connaissances : Bases de données et bases de connaissances
1.Les Listes • La forme la plus simple de représentation des connaissances est une liste de l’ensemble des objets d’une catégorie précise donnée (par exemple, la liste des gènes contenus dans le génome humain, la liste de tous les types cellulaires d’un organisme, la liste des espèces vivantes ….), habituellement triée par ordre alphabétique. • Une liste est donc la collection de tous les concepts d’un domaine sans aucune relation implicite ou explicite entre eux. • La couverture d’un domaine donné au moyen de listes nécessitera d’en élaborer plusieurs et non une seule. Il faudra autant de listes que l’on pourra dénombrer de « sujets » dans le domaine.
Les listes se révèlent très utiles pour des applications simples : • Elles sont à la base de toutes les recherches indexées utilisant des mots-clés (les instances des apparitions d’un mot dans un texte sont représentées sous forme d’une liste de mots où chacun est suivi du numéro des pages où il apparaît). • On peut les utiliser comme un vocabulaire contôlé pour contraindre et accélérer l’entrée d’informations « validées » dans un système en évitant les ereurs orthographiques et/ou les erreurs typographiques. Exemple : pour rendre compte, de façon simplifiée, des connaissances sur les maladies, 3 listes peuvent suffire : une sur les gènes ou protéines impliquées dans des maldies, une listant les différentes maladies et une décrivant les tissus affectés. Une des limitations évidentes de ce mode de représentation est qu’aucun lien n’est fait entre les différentes listes.
2. Les thesauri • Un thesaurus peut être défini commme un recueil documentaire alphabétique de termes servant de descripteur pour : • analyser un corpus • indexer des documents • Les Thesauri (singulier : un thesaurus) ont la même structure que les listes avec l’addition d’un composant important : les Thesauri stockent des synonymes (et parfois des termes reliés) pour chaque terme de la liste pour lesquels on en dispose. • Un synonyme est un concept identique ou très similaire à une des entrées de la liste, mais ayant une dénomination différente. • Des exemples de synonymes pour le terme 'heart attack' dans un thesaurus médical anglais seraient 'myocardial necrosis' et 'cardiac arrest'.
Les synonymes sont stockés sous la forme de relations avec les termes principaux du type IS-SYNONYM-OF (est-synonyme-de) : • Les synonymes présentent une grande utilité dans l’amélioration de la complétude des recherches basée sur des mots-clés. En étendant une recherche à tous les synonymes d’un concept donné, on peut « récupérer » tous les articles où le(s) synonyme(s) est (sont) utilisé(s) à la place du terme de base. • Exemple : Une recherche avec le terme « myocardial infection » stocjé dans un thesaurus retournera aussi des articles où le terme « heart attack » aurait été utilisé, augmentant ainsi la couverture de la recherche.
3. Les taxonomies • Les taxonomies sont un enrichissement des thesauri dans lesquelles un nouveau niveau de relations est ajouté de façon à structurer les listes avec des liens de type « parent-enfant ». • Les relations sont de la forme « IS-A » (est-un), par exemple 5HT1A IS-A GPCR; Anorexia IS-A Eating Disorder. • Prises dans leur ensemble, ces relations permettent la création d’une hierarchie taxonomique de tous les concepts d’un sujet donné. Ceci permet de donner une structure arborescente familière et intuitive à l’organisation des différents concepts :
•En plus de la relation « IS-A », la relation « IS-PART-OF »(est-une partie-de » est particulièrement utile dans certains domaines tels que l’anatomie, ou il est ainsi aisé de décrire de façon hiérarchique tous les organes d’un organisme, puis tous les constituants de chaque organe. Exemple: hepatocyte IS-PART-OF lobule, hepatic lobule IS-PART-OF liver. Des taxonomies construites uniquement à partir de relations « IS-PART-OF » sont appelées des partonomies. • Il est noter que le terme « taxonomie » est souvent confondu avec le terme « ontologie ».
Les taxonomies ont plusieurs types d’applications : • Tout d’abord, elles donnent une vision d’ensemble d’un concept en présentant ses propriétés générales et en les affinant progressivement. • Ensuite, la hiérarchisation des concepts offre une classification contre laquelle le contenu d’articles peut être comparé, permettant une catégorisation de ceux-ci. Ceci est d’une grande utilité en recherche d’informations textuelles où un article pourra être indexé comme parlant de tel ou tel sujet. • La connaissance de la profondeur dans la hiérarchiedes sujets ou mots-clés ayant été indexés permet d ’apprécier le degré de généralisation ou au contraire de spécialisation d’un article.
4. Les ontologies • Par rapport aux taxonomies, les ontologies ajoutent encore des relations plus riches et plus descriptives entre les concepts. • Les ontologies sont le premier niveau de représentation qui commence à combiner des relations entre concepts dans des listes differentes. • Exemple : p53 IS-UPREGULATED-IN Breast Cancer on établit un lien entre un concept de la liste « Targets » list et un de la liste « Diseases ».
Les ontologies permettent de disposer d’un moyen riche et puissant de description de tout un domaine entier qui peut être utilisé de plusieurs manières. • Au niveau le plus bas : puisqu’elle contient l’essentiel des concepts et relations nécessaires à la description d’un domaine, une ontologie peut être utilisée pour construire des taxonomies, thesauri et listes spécifiques : En sélectionnant les concepts et les relations utilisées, on peut soit : • • exporter les concepts pour construire des listes • • exporter les concepts et les synonymes pour construire des thesauri • • exporter les concepts, les synonymes et les relations « IS-A » pour construire des taxonomies.
Récapitulatif Listes Thesauri Taxonomies Ontologies
Les ontologies : concepts et applications en génomique • Plan du cours • - Introduction : Pourquoi des ontologies, définitions • - Description détaillée des ontologies • - La construction d’ontologies • - Un exemple concret d’ontologie : Gene Ontology (GO)
Description détaillée des ontologies Une ontologie correspond à uneConceptualisation et une structuration d’un domaine d’intérêt • Concepts (gènes, macromolécule) • Relations (IS-A, PART-OF, etc.) • Attributs/rôles (a_pour_fonction, a_pour_produit) • Contraintes (male ou femelle mais pas les 2) • Objets (instances des concepts) • Valeurs (le produit du gène trpA est trytophan-synthetase) • Axiomes (les acides nucléiques de moins 20 résidus sont des oligonucléotides) Crédit: Christine Froidevaux
Description détaillée des ontologies Exemple : Structure de GO (Gene Ontology) • Deux relations fondamentales (transitives): - is_a : relation sous-classe / classe ex : nuclear chromosome is_a chromosome - part_of : C part_of D signifie que chaque fois que C est présent, C est toujours une partie de D, mais C peut ne pas être présent ex : nucleus part_of cell; les noyaux font toujours partie d’une cellule, mais les cellules n’ont pas toutes des noyaux (bactéries) Crédit: Christine Froidevaux
Description détaillée des ontologies Exemple : Structure de GO (Gene Ontology) (2) • Structure de DAG (Directed Acyclic Graph) : graphe sans circuit
Description détaillée des ontologies Exemple : Structure de GO (Gene Ontology) (3) • Héritage multiple ex : le terme biological process hexose biosynthesis a 2 parents, hexose metabolism et monosaccharide biosynthesis, car biosynthesis est un sous-type de metabolism, et un hexose est un type de monosaccharide • Si un gène est annoté par un terme, il est annoté par les deux termes parents
Description détaillée des ontologies Exemple : Structure de GO (Gene Ontology) (2) • Structure de DAG (Directed Acyclic Graph) : graphe sans circuit Crédit: Christine Froidevaux
Description détaillée des ontologies Rappels : Différences entre une hiérarchie et une ontologie (arborescence vs DAG)
Description détaillée des ontologies • Des étapes importantes : • Identifier, modéliser les concepts d'un domaine, pertinents pour une/des applications • Se mettre d'accord, au sein d'une communauté, sur les termes employés pour se référer à ces concepts • Composant réutilisable • Réutilisation : généralité, abstraction (reuse) • Partage : consensus, standardisation (sharing) • Accord sur conceptualisation partagée : engagement ontologique (commitment)
Les ontologies : concepts et applications en génomique • Plan du cours • - Introduction : Pourquoi des ontologies, définitions • - Description détaillée des ontologies • - La construction d’ontologies • - Un exemple concret d’ontologie : Gene Ontology (GO)
Construction d’ontologies (1) • Méthodologie : Processus en V pour assurer la qualité: • 1) Spécifier : identifier le domaine et le but de l’ontologie bonne spécification => évaluation et réutilisation possibles • 2) Acquérir les connaissances : expertise des biologistes, textes d’articles (text mining), méta-données de bases de données etc. => dresser une liste de questions de compétences • 3) Conceptualiser : identifier les concepts-clés du domaine, leurs propriétés et leurs relations; identifier les termes pertinents du langage naturel; structurer le savoir du domaine Crédit: Christine Froidevaux
Construction d’ontologies (2) • 6) Identifier les relations pertinentes : subClassOf, isa, partOf, hasPart, closeTo, over, under, contains, connected, etc. Utiliser des règles pour combiner les concepts et les relations : partOf est transitive • 5) Intégrer: utiliser ou spécialiser une ontologie existante 6) Encoder : choisir un langage de représentation formel • 7) Documenter: produire des définitions formelles, informelles, complètes, pour préciser la signification des termes de l’ontologie; donner des exemples • 8) Evaluer: déterminer l’adéquation de l’ontologie pour l’application visée; évaluation à faire de façon pragmatique => critères : cohérence, complétude, concision (pas de redondance, avec un bon degré de granularité), etc. Crédit: Christine Froidevaux
Construction d’ontologies (3) • 9) Prévoir des procédures de mise à jour (ajout, suppression, déplacement dans l’ontologie) et de visualisation • Difficultés et pièges à éviter (Schulze-Kremer 2002) : e.g. définir un concept par des négations ; utiliser le terme qu’on définit dans la définition (circularisation) => imperfections de GO ? Are the current ontologies in biology good ontologies ? (Soldatova et King 2005) The reality is that the construction of ontologies is an art rather than a science (Fernandez, METHONTOLOGY) Crédit: Christine Froidevaux
Quelques difficultés rencontrées Construction d’ontologies (4) terme Mot de la langue naturelle qui désigne un (des) concept(s) : cat, chat, greffier, matou termes qui désignent le concept de chat • synonymie:plusieurs termes dénotent le même concept • ambiguïté : plusieurs concepts dénotés par le même terme
Construction d’ontologies (5) Quelques difficultés rencontrées Ambiguïté ‘chambre’ : Chambre d'hôtel ? Chambre d'écho ? Chambre des députés ? Chambre d'enregistrement ? Chambre noire ? Chambre funéraire ?
Les ontologies : concepts et applications en génomique • Plan du cours • - Introduction : Pourquoi des ontologies, définitions • - Description détaillée des ontologies • - La construction d’ontologies • - Un exemple concret d’ontologie : Gene Ontology (GO)
Un exemple concret d’ontologie en Biologie moléculaire et Génomique http://www.geneontology.org
What is GO ? (1) The Gene Ontology (GO) project is a collaborative effort to address the need for consistent descriptions of gene products in different databases. The GO collaborators are developing three structured, controlled vocabularies (ontologies) that describe gene products in terms of their associated : - biological processes, - cellular components, - and molecular functions in a species-independent manner. There are three separate aspects to this effort: first, we write and maintain the ontologies themselves; second, we make cross-links between the ontologies and the genes and gene products in the collaborating databases, and third, we develop tools that facilitate the creation, maintainence and use of ontologies. Credit: Jennifer Clark, GO Editorial Office
What is GO ? (2) • Molecular Function Ontology: activités effectuées par des produits de gènes individuels au niveau moléculaire ex : carbohydrate binding and ATPase activity • Biological Process Ontology: série d’événements effectués par un ou plusieurs assemblages ordonnés de fonctions moléculaires ex : mitosis ou purine metabolism NB : un processus biologique n’est pas équivalent à un pathway • Cellular Component Ontology: structure anatomique, groupe de produits de gènes ex : nucleus ou ribosome
What is GO? (3) The use of GO terms by several collaborating databases facilitates uniform queries across them. The controlled vocabularies are structured so that you can query them at different levels. For example, you can use GO: - to find all the gene products in the mouse genome that are involved in signal transduction, - or you can zoom in on all the receptor tyrosine kinases. This structure also allows annotators to assign properties to gene products at different levels, depending on how much is known about a gene product. Credit: Jennifer Clark, GO Editorial Office
Un exemple d’utilisation de GO dans les bases de données : The Saccharomyces Genome Database (SGD)
Un exemple d’utilisation de GO dans les bases de données : The Saccharomyces Genome Database (SGD) Molecular Function Biological Process Cellular Component
Annotations et « evidence codes » dans GO • Des recommandations pour annoter un produit de gène : annoter au niveau le plus bas de l’ontologie ; annoter par 0 ou plusieurs termes GO de chaque ontologie de façon indépendante; annoter avec des termes reflétant l’activité normale du gène etc • L’annotation doit indiquer quelle sorte d’évidence est trouvée dans la source citée, entre le produit de gène et le terme GO associé : essentiel pour évaluer la qualité de l’annotation. Un simple vocabulaire contrôlé est utilisé pour stocker l’évidence (expérimentale, prédite, copiée …). Il y a 13 codes d’évidence : • ND : No Data (available) • IC : Inferred by Curator • IDA : Inferred from Direct Assay (Enzyme assay; Immuno fluorescence…) • IEA : Inferred from Electronic Annotation • etc…
Quelques statistiques sur GO Terms: October 2004 20 395 terms (defined: 95%) molecular_function: 7913 biological_process: 10677 cellular_component: 1805 October 14, 2008 26212 terms, 98.3% with definitions 15565 biological_process 2226 cellular_component 8421 molecular_function
Gene Association file QC - Redundancy http://www.geneontology.org/GO.annotation.shtml#script
Mapping Files - Uniprot keywords and Interpro2GO updated http://www.geneontology.org/GO.indices.shtml
! More than 100 tools (GO consortium and external) available Credit: Jennifer Clark, GO Editorial Office
Outils dédiés aux ontologies (1) http://www.geneontology.org/GO.tools.shtml Credit: Jennifer Clark, GO Editorial Office
Outils dédiés aux ontologies (1) http://www.geneontology.org/GO.tools.shtml Credit: Jennifer Clark, GO Editorial Office
Outils dédiés aux ontologies (1) http://www.geneontology.org/GO.tools.shtml Credit: Jennifer Clark, GO Editorial Office
Outils dédiés aux ontologies (2) http://www.godatabase.org/