380 likes | 482 Views
Le 28 mars 2002. Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations sur les interactions génétiques ou moléculaires à partir de publications. Ambroise Ingold (LIPN Université Paris 13). Plan.
E N D
Le 28 mars 2002 Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold (LIPN Université Paris 13)
Plan • Motivations • Identification des gènes dans Medline • Extraction d’information sur les interactions • Interface de la base de données • Perspectives
La circulation de l’information Recherche Données d’expériences Publications Banque de résultats d’expériences Swissprot, Genbank BdD Bibliographiques Medline Encyclopédies en ligne Flybase
Investigation dans les BdD Représentation des connaissances GED, informatique documentaire Indexation BdD Bibliographique Encyclopédies en ligne Réf. Biblio. Réf. rés. exp. Réf. Biblio. Réf. rés. exp. Indexation Banques de résultats d’expériences Bio-informatique
MeSH Terms : • Amino Acid Sequence • Animal • Drosophila/genetics* • Drosophila/embryology • Epitope Mapping • Gene Expression • Gene Expression Regulation, Developmental* • Genes, Insect* • Helix-Loop-Helix Motifs/genetics • Immunohistochemistry • In Situ Hybridization • In Vitro • Molecular Sequence Data • Morphogenesis/genetics • Sense Organs/embryology* • Support, Non-U.S. Gov't • Gene Symbols : • da • emc • AS-C Medline (exemple) • Regulation of scute function by extramacrochaete in vitro and in vivo. • The pattern of adult sensilla in Drosophila is established by the dosage-sensitive interaction of two antagonistic groups of genes. Sensilla development is promoted by members of the achaete-scute complex and the daughterless gene whereas it is suppressed by whereas extramacrochaete (emc) and hairy. All these genes encode helix-loop-helix proteins. The products of the achaete-scute complex and daughterless interact to form heterodimers able to activate transcription. In this report, we show that (1) extra-macrochaete forms heterodimers with the achaete, scute, lethal of scute and daughterless products; (2) extramacrochaete inhibits DNA-binding of Achaete, Scute and Lethal of Scute/Daughterless heterodimers and Daughterless homodimers and (3) extramacrochaete inhibits transcription activation by heterodimers in a yeast assay system. In addition, we have studied the expression patterns of scute in wild-type and extramacrochaete mutant imaginal discs. Expression of scute RNA during imaginal development occurs in groups of cells, but high levels of protein accumulate in the nuclei of only a subset of the RNA-expressing cells. The pattern is dynamic and results in a small number of protein-containing cells that correspond to sensillum precursors. extramacrochaete loss-of-function alleles develop extra sensilla and correspondingly display a larger number of cells with scute protein. These cells appear to arise from those that in the wild type already express scute RNA; hence, extramacrochaete is a repressor of scute function whose action may take place post-transcriptionally. ?
Flybase (Gène Wg) Genetic analysis demonstrates that wg is dispensable for efficient homeotic gene expression in the visceral mesoderm. (Tremml and Bienz, 1989) Medline Tremml G, Bienz M. EMBO J 1989 Sep;8(9):2687-93 An essential role of even-skipped for homeotic gene expression in the Drosophila visceral mesoderm. Exemple de lien de Flybase vers Medline
BdD bibliographique Redondantes, non-ordonnées À jour, détaillées Fidèles, nuancées, contextualisées BdD factuelles Organisées, calculables Parcellaires, incomplètes Simplificatrices, hors contexte BdD bibliographiques vs BdD factuelles
Exemple de couplage factuel/textuel • Domaine d’application • Gènes • Relations entre les gènes (interaction) Identification des gènes Medline Flybase Reconnaissance des interactions BdD interactions
Argumentaire • Pas d’indexation des gènes dans Medline (ou très incomplète) • Les références bibliographiques dans Flybase sont incomplètes • Pas de BdD des interactions génétiques
Réalisation • Système d’identification des gènes • Système d’extraction d’information sur les interactions
Première partie Identification des gènes
Identification des gènes (schéma) • Grandes étapes Medline 109 résumés 50 résumés Dictionnaire des gènes Flybase Confrontation Identification • Modifications • Manuelles • Automatiques Mise au point Test
Identification des gènes (plan) • Le dictionnaire des gènes issu de Flybase • Méthode d’identification des gènes • L’amélioration du dictionnaire des gènes • Les résultats
Le dictionnaire des gènes issu de Flybase • Exemple de gène • Nom complet : wingless • Symbole : wg • Synonymes : Spd, spade, fg, flag, Sp, Sternopleural, Br, Bristled, int-1, Dint-1, Dm-1et l(2)wg • Terminologie • Label : la chaîne de caractère • Gène : l’entité biologique • Définition : la relation entre le gène et le label
Identification : Indexation et interprétation des labels Initially, eve expression in individual stripes is established by different regulatory elements, each of which responds to nonperiodic spatial cues provided, at least in part, by the gap genes even skipped (eve) stripes (str)
Élimination des sous-chaînes Reconnaissance bloquée • These results, along with the intermediate SOP phenotype observed in Suppressor of Hairless; Hairless double mutant imaginal discs, suggest that the two genes act antagonistically to commit imaginal disc cells stably to alternative fates.
Algorithme d’interprétation des labels • Confirmation de l’interprétation ? • Ambiguïté du label? • Plusieurs interprétations ? • Interprétation confirmée • Défaut de confirmation • Interprétation multiple • Interprétation simple Oui Non Oui Non Oui Non
Confirmation des labels ambigus The different thoracic muscles of Drosophila are affected specifically in the mutants: stripe (sr), erect wing (ewg), vertical wings (vtw), and nonjumper (nj). We have tested the extent of this specificity by means of a genetic analysis of these loci, multiple mutant combinations, and gene dosage experiments. […] The locus stripe seems to have a polar organization where different allelic combinations show quantitative specificity in the muscle affected. « bande » stripe (sr) Interprétation confirmée
Confirmation des labels ambigus (algorithme) • Confirmation de l’interprétation ? Oui • Interprétation confirmée
Label ambigü non confirmé We demonstrate that posterior stripe boundaries are established by gap protein repressors unique to each stripe: h stripe 5 is repressed by the giant (gt) protein on its posterior border and h stripe 6 is repressed by the hunchback (hb) protein on its posterior border. « bande » Défaut de confirmation stripe (sr)
Défaut de confirmation des labels ambigus (algorithme) • Confirmation de l’interprétation ? Non • Ambiguïté du label ? Oui • Défaut de confirmation
Interprétation multiple Localization of the maternally synthesized nanos (nos) RNA to the posterior pole of the Drosophila embryo provides the source for a posterior-to- anterior gradient of Nos protein. Correct spatial regulation of nos activity is essential for normal pattern formation. nanos (nos) Nitric oxide synthase (Nos) Identification multiple
Interprétation multiple (algorithme) • Confirmation de l’interprétation ? • Ambiguïté du label ? • Plusieurs interprétations ? Non Non • Interprétation multiple Oui
Amélioration du dictionnaire des gènes • Nettoyage des données • Ajout de labels, de définitions et de gènes ou objet assimilé manquant • Caractérisation de l’ambiguïté des labels
Performance (identification des gènes) • 88 % des identifications sont exactes. • Le programme trouve 86 % des identifications faite par l’annotateur.
Deuxième partie Reconnaissance des interactions
Grandes étapes (reconnaissance des interactions) Phrases annotées manuellement Liste d’interactions Phrases Phrases annotées automatiquement Comparaison Comparaison Liste d’interactions
Calcul de l’IVI Phrase : We conclude that Notch signallingactivity is directlyresponsible for the accumulation of basic helix-loop- helix proteinsencoded by the Enhancer of split locus
Extraction des interactions Phrase : We conclude that Notch signalling activity is directly responsible for the accumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus Notch Enhancer of split
Troisième partie Interface de la base de données
Conclusion (Bilan) • Le couplage factuel-textuel • Identification des gènes Flybase dans Medline • Confrontation encyclopédie/texte • Méthode d’identification automatique des gènes • Étude usage • Reconnaissance interactions • Cooccurrence • Indice de pertinence • Simplicité, robustesse
Conclusion (perspective) • Autres domaines d’applications • Couplage avec des résultats d’expériences • Interface Homme-Machine / Recherche documentaire