170 likes | 336 Views
Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs. Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers. PLAN. La problématique Les ressources biologiques utilisées Filtrage des motifs Conclusion. Problématique.
E N D
Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT LERIA - Université d’Angers
PLAN • La problématique • Les ressources biologiques utilisées • Filtrage des motifs • Conclusion
Problématique • Exploitation des documents dans un domaine de la biologie • Recherche de relations sémantiques entre termes biologiques • Extraction de motifs biologiques Utilisation de INTEX
Corpus « nettoyé » et « sélectionné » Corpus original Etape 2 : Nettoyage du corpus Etape 3 : Sélection des résumés Etape 1 : Requête Gene/myocardium Corpus « nettoyé » • Constitution du corpus d’apprentissage PubMed Etiquetage du corpus
La terminologie biologique • Évolution constante de la terminologie • Pas de notation constante des noms de gènes ou de protéines. • Polysémie des mots dans certains cas.
Ressources biologiques (1) • UMLS (Unified Medical Language System) Grande source de connaissance biomédicale découpée en 3 parties : • le Métathesaurus • le réseau sémantique • un lexique médical Specialist Lexicon
Ressources biologiques (2) • LocusLink ou Gene Base de données du NCBI intégrant les gènes disponibles dans l’ensemble des bases de données • Environ 40000 entrées
Ressources biologiques (3) • Gene Ontology • permet de produire un vocabulaire contrôlé s’appliquant à tous les organismes • utilisée pour l’annotation des Bases de Données Génomiques
GO se compose de 3 réseaux structurés de termes précis portant sur la description des produits des gènes Fonctions moléculaires Processus biologiques Composants cellulaires 14000 termes
Intégration des données dans INTEX • 1- LocusLink >>37195 LOCUSID: 37195 LOCUS_CONFIRMED: yes LOCUS_TYPE: gene with protein product, function unknown … ACCNUM: AE003797|21626951|na|na|na TYPE: g PROT: AAF57604|7302521 PROT: AAF57605|28380717 PROT: AAF57606|28380718 ACCNUM: AY113373|21064296|y; cn bw sp|na|na TYPE: m PROT: AAM29378|21064297 OFFICIAL_SYMBOL: CG15109 OFFICIAL_GENE_NAME: ALIAS_SYMBOL: CT34984 ALIAS_SYMBOL: CT42557 ALIAS_SYMBOL: CT42559 LEMME VARIANTS
Création de DELAF et DELACF : CG15109, CG15109.LOC CT34984, CG15109.LOC CT42557, CG15109.LOC • Besoin de modifier l’alphabet anglais de INTEX –> insertion des chiffres et du caractère « - »
LEMME CATEGORIE VARIANT {base=APUD cell entry=E0000108 cat=noun variants=metareg acronym_of=amine precursor uptake decarboxylase cell|E0008543 } • 2- UMLS (Lexicon) • Ecriture du DELAF ou DELACF en fonction du lemme et des variants trouvés APUD cell, APUD cell.ON Amine precursor uptake decarboxylase cell, APUD cell.UN
3- GO Extraction des termes et création du DELAF et du DELACF • Pour chaque réseau de termes, attribution d’une catégorie : deoxyribonuclease,deoxyribonuclease.MOLE depurination,depurination.BIO centromere,centromere.COMP
Filtrage des motifs • Résultats avec INTEX dans sa version originale : • Seulement 45 % de termes reconnus • ~70 % de termes reconnus avec les lexiques spécialisés. • Besoin de grammaires locales
Ex :<MOT>#-#<MOT> • Application de 12 règles lexicales acid-treated ADP-ribose Terme technique Molécule • Besoin d’un vérification manuelle des résultats obtenus 90% de termes reconnus
Conclusion et perspectives • Amélioration de 45 à 90% de reconnaissance de termes par notre système • Application de ce système à un autre corpus du domaine biologique « single nucleotide polymorphism » ou « SNP » corpus de 6729 résumés (10Mo)
Mettre à jour les lexiques spécialisés • UMLS et Gene • Améliorer l’étape de vérification manuelle • Extraction de connaissance