1 / 25

Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes

Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes. 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia Grabar Inès Jilani Marie-Christine Jaulent. Sommaire. Contexte

gili
Download Presentation

Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia Grabar Inès Jilani Marie-Christine Jaulent

  2. Sommaire • Contexte • Confronter les résultats expérimentaux en biologie à ceux déjà publiés dans la littérature • Thématiques de recherche associées • Apport de l’ingénierie des connaissances et du traitement automatique des langues (TAL) • Travaux de recherche • Consortium au sein de la Plateforme « biologie des systèmes » de Paris 5 (C. Néri) • En pratique • Premiers résultats • Perspectives

  3. Introduction D’après Stéphane LE CROM (séminaire biopuces, février 2006) Méthodes bioinformatique d'analyse des puces à ADN : analyse de l'image, normalisation et stockage des données

  4. Contexte • Validation et interprétation des résultats expérimentaux • Confrontation avec des connaissances antérieures • Ressources • La littérature  travail manuel fastidieux • Gene Ontology (GO)  une ressource terminologique • Les bases de données  nombreuses mais incomplètes • Mises à jour manuellement à partir de la littérature en utilisant les termes de GO • Recherche active (Gene Ontology Annotation consortium)

  5. Contexte • Validation et interprétation des résultats expérimentaux • Confrontation avec des connaissances antérieures • Ressources • La littérature  travail manuel fastidieux • Gene Ontology (GO)  une ressource terminologique • Les bases de données  nombreuses mais incomplètes • Mises à jour manuellement à partir de la littérature en utilisant les termes de GO • Recherche active (Gene Ontology Annotation consortium) • Objectifs • Développer des outils informatiques pour extraire des connaissances de sources textuelles en biologie • Accélérer le processus de validation

  6. Enjeux • Recherche d’information sur Internet très coûteuse en temps (analyse de grands volumes de données) • Analyse des articles pour extraire la connaissance • Plusieurs approches mises en concurrence lors de compétitions internationales

  7. U729 : Ingénierie des connaissances en santé • Acquérir, modéliser et représenter les connaissances médicales • Connaissance implicite et explicite • Extraction de connaissances par des méthodes de fouille de textes • Construire des systèmes à base de connaissances (SBC) qui s’intègrent dans la pratique médicale (serveurs d’expertise) • Codage et partage du dossier médical, détection de signal en pharmacovigilance, systèmes d’assistance à la décision (alertes), prescription automatique, estimation personnalisée des risques, diffusion des guides de bonnes pratiques, … • Service web : Annotation fonctionnelle de gènes • Evaluation • Qualité, acceptabilité, impact • Comparer les connaissances extraites des textes avec celles qui se trouvent déjà dans les bases (précision et rappel)

  8. Travaux de recherche dans le cadre de la plateforme « biologie des systèmes » de l’université Paris 5

  9. Consortium • INSERM AVENIR IFR77 – Laboratoire de biologie génomique • Christian Néri, Céline Lefebvre, Edouard Hérion • CNRS UMR 8145 – MAP5 • Antoine Chambaz, • CRIP5 – Centre de recherche en Informatique de Paris 5 – équipe IAD • Sylvie Després, Valentina Ceausu • INSERM UMR_S 729 IFR 58 – SPIM • Natalia Grabar, Inès Jilani, Marie-Christine Jaulent

  10. Le contexte biologique du projet • Clusters obtenus par la méthode Best-Balanced Constraint Procedure* *Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):1550--8.

  11. Le contexte biologique du projet • Clusters obtenus par la méthode Best-Balanced Constraint Procedure* *Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):1550--8.

  12. Example de requête :est-ce que ces gènes partagent des fonctions communes ? Sélectionner les articles pertinents GO = Gene Ontology Méthodes de fouille de texte Annotation fonctionnelle des gènes Le système envisagé

  13. Les objectifs spécifiques • Retrouver automatiquement les documents pertinents depuis Medline • Filtrage automatique à partir des noms des gènes • Score de pertinence pour les documents • Créer les ressources lexicales nécessaires • Normalisation des termes GO • Désambiguïsation des noms de gènes • Implémenter des méthodes d’extraction de connaissances • Couples (gène, fonction)  annotation fonctionnelle de gènes • Développer des services pour les biologistes

  14. Les objectifs spécifiques • Retrouver automatiquement les documents pertinents depuis Medline • Filtrage automatique à partir des noms des gènes • Score de pertinence pour les documents • Créer les ressources lexicales nécessaires • Normalisation des termes GO • Désambiguïsation des noms de gènes • Implémenter des méthodes d’extraction de connaissances • Couples (gène, fonction)  annotation fonctionnelle de gènes • Développer des services pour les biologistes • Mais aussi • Contribuer à la mise à jour les bases de données • Identifier de nouvelles connaissances

  15. Les objectifs spécifiques • Retrouver automatiquement les documents pertinents depuis Medline • Filtrage automatique à partir des noms des gènes • Score de pertinence pour les documents • Créer les ressources lexicales nécessaires • Normalisation des termes GO • Désambiguïsation des noms de gènes • Implémenter des méthodes d’extraction de connaissances • Couples (gène, fonction)  annotation fonctionnelle de gènes • Développer des services pour les biologistes • Mais aussi • Contribuer à la mise à jour les bases de données • Identifier de nouvelles connaissances

  16. Les méthodes d’extraction de connaissances • Patrons lexico-syntaxiques (Jilani et al., 2006) • repérage par rapport aux schémas réccurrents dans la langue • Log-Facteur de vraisemblance (Grabar et al., 2005) • cooccurrences stables => relations sémantiques • Règles d’association (Ceausu et al., 2006) • attraction de mots et de termes • Approche interne (en cours) • déchiffrage de fonctions encodées dans les noms de gènes

  17. Les méthodes d’extraction de connaissances • Patrons lexico-syntaxiques (Jilani et al., 2006) • repérage par rapport aux schémas réccurrents dans la langue • Log-Facteur de vraisemblance (Grabar et al., 2005) • cooccurrences stables => relations sémantiques • Règles d’association (Ceausu et al., 2006) • attraction de mots et de termes • Approche interne (en cours) • déchiffrage de fonctions encodées dans les noms de gènes

  18. Un exemple de PLS • <Nom><Verbe>by the<Nom>

  19. Les PLS pour l’annotation fonctionnelle de gènes

  20. Interface de validation

  21. Qualifier les résultats obtenus avec des scores de confiance

  22. Les expérimentations réalisées • 1) Deux espèces : D melanogaster & C elegans • 719 clusters (3851 gènes) • 1040 gènes annotés avec llr • 2) Deux espèces : H sapiens & C elegans • 69 clusters (416 gènes) • 158 gènes annotés avec llr & PLS • La validation est en cours

  23. Comparer les méthodes par exemple pour le FCM 197 man (annotation manuelle); pls (patrons lexico-syntaxiques); llr (log-facteur de vraissemblance)

  24. Perspectives • Sélection des articles pertinents • Prendre en compte l’ambiguïté et la synonymie des noms de gènes et des termes : • it, and, wee, ct … • Combiner les différentes méthodes d’extraction de connaissance afin qu’elles contribuent à améliorer les résultats • Prendre en compte les scores de confiance dans la procédure de validation des couples • Rendre le sytème le plus générique possible • application à d’autres espèces

  25. La méthodologie de validation des couples (gènes fonctions) obtenus • Comparer avec les informations contenues dans des bases de données existantes • L’utilisation des termes Gene Ontology (Gene Ontology Consortium, 2000) facilite cette évaluation puisqu’ils sont utilisés dans ces mêmes bases et par notre méthode. • Compétitions organisées pour l’évaluation d’outils automatiques • Est-ce que la méthode adoptée arrive à extraire les informations recherchées ? • Validation par les biologistes : • Comparaison avec les clusters obtenus par la méthode BBCP

More Related