1 / 17

Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs. Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers. PLAN. La problématique Les ressources biologiques utilisées Filtrage des motifs Conclusion. Problématique.

lei
Download Presentation

Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers

  2. PLAN • La problématique • Les ressources biologiques utilisées • Filtrage des motifs • Conclusion

  3. Problématique • Exploitation des documents dans un domaine de la biologie • Recherche de relations sémantiques entre termes biologiques • Extraction de motifs biologiques  Utilisation de INTEX

  4. Corpus « nettoyé » et « sélectionné » Corpus original Etape 2 : Nettoyage du corpus Etape 3 : Sélection des résumés Etape 1 : Requête Gene/myocardium Corpus « nettoyé » • Constitution du corpus d’apprentissage PubMed Etiquetage du corpus

  5. La terminologie biologique • Évolution constante de la terminologie • Pas de notation constante des noms de gènes ou de protéines. • Polysémie des mots dans certains cas.

  6. Ressources biologiques (1) • UMLS (Unified Medical Language System) Grande source de connaissance biomédicale découpée en 3 parties : • le Métathesaurus • le réseau sémantique • un lexique médical Specialist Lexicon

  7. Ressources biologiques (2) • LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des bases de données • Environ 40000 entrées

  8. Ressources biologiques (3) • Gene Ontology • permet de produire un vocabulaire contrôlé s’appliquant à tous les organismes • utilisée pour l’annotation des Bases de Données Génomiques

  9. GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires 14000 termes

  10. Intégration des données dans INTEX • 1- LocusLink >>37195 LOCUSID: 37195 LOCUS_CONFIRMED: yes LOCUS_TYPE: gene with protein product, function unknown … ACCNUM: AE003797|21626951|na|na|na TYPE: g PROT: AAF57604|7302521 PROT: AAF57605|28380717 PROT: AAF57606|28380718 ACCNUM: AY113373|21064296|y; cn bw sp|na|na TYPE: m PROT: AAM29378|21064297 OFFICIAL_SYMBOL: CG15109 OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984 ALIAS_SYMBOL: CT42557 ALIAS_SYMBOL: CT42559 LEMME VARIANTS

  11. Création de DELAF et DELACF : CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC • Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du caractère « - »

  12. LEMME CATEGORIE VARIANT {base=APUD cell entry=E0000108 cat=noun variants=metareg acronym_of=amine precursor uptake decarboxylase cell|E0008543 } • 2- UMLS (Lexicon) • Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN

  13. 3- GO Extraction des termes et création du DELAF et du DELACF • Pour chaque réseau de termes, attribution d’une catégorie : deoxyribonuclease,deoxyribonuclease.MOLE depurination,depurination.BIO centromere,centromere.COMP

  14. Filtrage des motifs • Résultats avec INTEX dans sa version originale : • Seulement 45 % de termes reconnus • ~70 % de termes reconnus avec les lexiques spécialisés. • Besoin de grammaires locales

  15. Ex :<MOT>#-#<MOT> • Application de 12 règles lexicales acid-treated ADP-ribose Terme technique Molécule • Besoin d’un vérification manuelle des résultats obtenus  90% de termes reconnus

  16. Conclusion et perspectives • Amélioration de 45 à 90% de reconnaissance de termes par notre système • Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo)

  17. Mettre à jour les lexiques spécialisés • UMLS et Gene • Améliorer l’étape de vérification manuelle • Extraction de connaissance

More Related