250 likes | 333 Views
Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes. 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia Grabar Inès Jilani Marie-Christine Jaulent. Sommaire. Contexte
E N D
Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia Grabar Inès Jilani Marie-Christine Jaulent
Sommaire • Contexte • Confronter les résultats expérimentaux en biologie à ceux déjà publiés dans la littérature • Thématiques de recherche associées • Apport de l’ingénierie des connaissances et du traitement automatique des langues (TAL) • Travaux de recherche • Consortium au sein de la Plateforme « biologie des systèmes » de Paris 5 (C. Néri) • En pratique • Premiers résultats • Perspectives
Introduction D’après Stéphane LE CROM (séminaire biopuces, février 2006) Méthodes bioinformatique d'analyse des puces à ADN : analyse de l'image, normalisation et stockage des données
Contexte • Validation et interprétation des résultats expérimentaux • Confrontation avec des connaissances antérieures • Ressources • La littérature travail manuel fastidieux • Gene Ontology (GO) une ressource terminologique • Les bases de données nombreuses mais incomplètes • Mises à jour manuellement à partir de la littérature en utilisant les termes de GO • Recherche active (Gene Ontology Annotation consortium)
Contexte • Validation et interprétation des résultats expérimentaux • Confrontation avec des connaissances antérieures • Ressources • La littérature travail manuel fastidieux • Gene Ontology (GO) une ressource terminologique • Les bases de données nombreuses mais incomplètes • Mises à jour manuellement à partir de la littérature en utilisant les termes de GO • Recherche active (Gene Ontology Annotation consortium) • Objectifs • Développer des outils informatiques pour extraire des connaissances de sources textuelles en biologie • Accélérer le processus de validation
Enjeux • Recherche d’information sur Internet très coûteuse en temps (analyse de grands volumes de données) • Analyse des articles pour extraire la connaissance • Plusieurs approches mises en concurrence lors de compétitions internationales
U729 : Ingénierie des connaissances en santé • Acquérir, modéliser et représenter les connaissances médicales • Connaissance implicite et explicite • Extraction de connaissances par des méthodes de fouille de textes • Construire des systèmes à base de connaissances (SBC) qui s’intègrent dans la pratique médicale (serveurs d’expertise) • Codage et partage du dossier médical, détection de signal en pharmacovigilance, systèmes d’assistance à la décision (alertes), prescription automatique, estimation personnalisée des risques, diffusion des guides de bonnes pratiques, … • Service web : Annotation fonctionnelle de gènes • Evaluation • Qualité, acceptabilité, impact • Comparer les connaissances extraites des textes avec celles qui se trouvent déjà dans les bases (précision et rappel)
Travaux de recherche dans le cadre de la plateforme « biologie des systèmes » de l’université Paris 5
Consortium • INSERM AVENIR IFR77 – Laboratoire de biologie génomique • Christian Néri, Céline Lefebvre, Edouard Hérion • CNRS UMR 8145 – MAP5 • Antoine Chambaz, • CRIP5 – Centre de recherche en Informatique de Paris 5 – équipe IAD • Sylvie Després, Valentina Ceausu • INSERM UMR_S 729 IFR 58 – SPIM • Natalia Grabar, Inès Jilani, Marie-Christine Jaulent
Le contexte biologique du projet • Clusters obtenus par la méthode Best-Balanced Constraint Procedure* *Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):1550--8.
Le contexte biologique du projet • Clusters obtenus par la méthode Best-Balanced Constraint Procedure* *Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):1550--8.
Example de requête :est-ce que ces gènes partagent des fonctions communes ? Sélectionner les articles pertinents GO = Gene Ontology Méthodes de fouille de texte Annotation fonctionnelle des gènes Le système envisagé
Les objectifs spécifiques • Retrouver automatiquement les documents pertinents depuis Medline • Filtrage automatique à partir des noms des gènes • Score de pertinence pour les documents • Créer les ressources lexicales nécessaires • Normalisation des termes GO • Désambiguïsation des noms de gènes • Implémenter des méthodes d’extraction de connaissances • Couples (gène, fonction) annotation fonctionnelle de gènes • Développer des services pour les biologistes
Les objectifs spécifiques • Retrouver automatiquement les documents pertinents depuis Medline • Filtrage automatique à partir des noms des gènes • Score de pertinence pour les documents • Créer les ressources lexicales nécessaires • Normalisation des termes GO • Désambiguïsation des noms de gènes • Implémenter des méthodes d’extraction de connaissances • Couples (gène, fonction) annotation fonctionnelle de gènes • Développer des services pour les biologistes • Mais aussi • Contribuer à la mise à jour les bases de données • Identifier de nouvelles connaissances
Les objectifs spécifiques • Retrouver automatiquement les documents pertinents depuis Medline • Filtrage automatique à partir des noms des gènes • Score de pertinence pour les documents • Créer les ressources lexicales nécessaires • Normalisation des termes GO • Désambiguïsation des noms de gènes • Implémenter des méthodes d’extraction de connaissances • Couples (gène, fonction) annotation fonctionnelle de gènes • Développer des services pour les biologistes • Mais aussi • Contribuer à la mise à jour les bases de données • Identifier de nouvelles connaissances
Les méthodes d’extraction de connaissances • Patrons lexico-syntaxiques (Jilani et al., 2006) • repérage par rapport aux schémas réccurrents dans la langue • Log-Facteur de vraisemblance (Grabar et al., 2005) • cooccurrences stables => relations sémantiques • Règles d’association (Ceausu et al., 2006) • attraction de mots et de termes • Approche interne (en cours) • déchiffrage de fonctions encodées dans les noms de gènes
Les méthodes d’extraction de connaissances • Patrons lexico-syntaxiques (Jilani et al., 2006) • repérage par rapport aux schémas réccurrents dans la langue • Log-Facteur de vraisemblance (Grabar et al., 2005) • cooccurrences stables => relations sémantiques • Règles d’association (Ceausu et al., 2006) • attraction de mots et de termes • Approche interne (en cours) • déchiffrage de fonctions encodées dans les noms de gènes
Un exemple de PLS • <Nom><Verbe>by the<Nom>
Qualifier les résultats obtenus avec des scores de confiance
Les expérimentations réalisées • 1) Deux espèces : D melanogaster & C elegans • 719 clusters (3851 gènes) • 1040 gènes annotés avec llr • 2) Deux espèces : H sapiens & C elegans • 69 clusters (416 gènes) • 158 gènes annotés avec llr & PLS • La validation est en cours
Comparer les méthodes par exemple pour le FCM 197 man (annotation manuelle); pls (patrons lexico-syntaxiques); llr (log-facteur de vraissemblance)
Perspectives • Sélection des articles pertinents • Prendre en compte l’ambiguïté et la synonymie des noms de gènes et des termes : • it, and, wee, ct … • Combiner les différentes méthodes d’extraction de connaissance afin qu’elles contribuent à améliorer les résultats • Prendre en compte les scores de confiance dans la procédure de validation des couples • Rendre le sytème le plus générique possible • application à d’autres espèces
La méthodologie de validation des couples (gènes fonctions) obtenus • Comparer avec les informations contenues dans des bases de données existantes • L’utilisation des termes Gene Ontology (Gene Ontology Consortium, 2000) facilite cette évaluation puisqu’ils sont utilisés dans ces mêmes bases et par notre méthode. • Compétitions organisées pour l’évaluation d’outils automatiques • Est-ce que la méthode adoptée arrive à extraire les informations recherchées ? • Validation par les biologistes : • Comparaison avec les clusters obtenus par la méthode BBCP