780 likes | 886 Views
Lisa ALLALI M1 Bio-Informatique formelle MPRI 2004/2005. Présentation de la thèse de Julien ALLALI soutenue le 23 décembre 2004 à Marne la Vallée Modélisation et comparaison de la structure secondaire de l’ARN
E N D
Lisa ALLALI M1 Bio-Informatique formelle MPRI 2004/2005 Présentation de la thèse de Julien ALLALI soutenue le 23 décembre 2004 à Marne la Vallée Modélisation et comparaison de la structure secondaire de l’ARN Sous la direction de Maxime Crochemore et Marie France Sagot
Presentation Les ARN sont des séquences mono-brin de nucléotides. Dans la cellule où ils exercent de nombreux rôles, ils ne restent pas sous forme linéaire. Un ARN se replie sur lui-même et crée des liaisons entre certains de ses nucléotides. Les bases qui ne sont pas liées sont dites “non appariées”. Les 3 formes de l’ARN sont la structure primaire : séquence linéaire de nucléotides la structure secondaire : disposition des nucléotides sur le plan la structure tertiaire : disposition des nucléotides dans l’espace La conformation spaciale de l’ARN est déterminée et directement liée à la fonction de l’ARN dans la cellule. La structure tertiaire apparait donc naturellement comme la plus adaptée pour étudier la fonction d’un ARN. Cependant il est admis que 2 ARN ayant une structure secondaire proche auront une fonction moléculaire relativement proche.
La structure secondaire Les éléments de la structure secondaire Une hélice est une suite contiguë de liaisons entre 2 nucléotides
La structure secondaire Les éléments de la structure secondaire Une hélice est une suite contiguë de liaisons entre 2 nucléotides Une boucle terminale est une suite de bases non appariées formant une boucle à l’extremité d’une hélice
La structure secondaire Les éléments de la structure secondaire Une hélice est une suite contiguë de liaisons entre 2 nucléotides Une boucle terminale est une suite de bases non appariées formant une boucle à l’extremité d’une hélice Une boucle multiple est le point de rencontre d’au moins 3 hélices
La structure secondaire Les éléments de la structure secondaire Une hélice est une suite contiguë de liaisons entre 2 nucléotides Une boucle terminale est une suite de bases non appariées formant une boucle à l’extremité d’une hélice Une boucle multiple est le point de rencontre d’au moins 3 hélices Une boucle interne relie 2 hélices
La structure secondaire Les éléments de la structure secondaire Une hélice est une suite contiguë de liaisons entre 2 nucléotides Une boucle terminale est une suite de bases non appariées formant une boucle à l’extremité d’une hélice Une boucle multiple est le point de rencontre d’au moins 3 hélices Une boucle interne relie 2 hélices Un renflement est une “demie” boucle interne
La structure secondaire Les éléments de la structure secondaire Une hélice est une suite contiguë de liaisons entre 2 nucléotides Une boucle terminale est une suite de bases non appariées formant une boucle à l’extremité d’une hélice Une boucle multiple est le point de rencontre d’au moins 3 hélices Une boucle interne relie 2 hélices Un renflement est une “demie” boucle interne Une tige dénote une suite d’hélice(s)/boucle(s) interne(s)/(renflement(s)
Questions Ce qui nous intéresse ici est la comparaison des structures secondaires de l’ARN pour chercher à prédire la fonction d’un ARN inconnu grâce à sa ressemblance avec un ARN connu. Mais que signifie “être proche” pour deux ARN ? Comment automatiser cette reconnaissance de ressemblance ? C’est ce que nous allons essayer de comprendre pour trouver une réponse satisfaisante à la question de la comparaison entre 2 ARN.
Modélisations existantes Vers une formalisation satisfaisante
Séquences annotées par des arcs Séquences de type imbriqué représentant un ARN de transfert Structure Secondaire Structure primaire
Séquences annotées par des arcs Séquences de type imbriqué représentant un ARN de transfert Structure Secondaire Structure primaire Séquence annotée modélisant la structure secondaire
Séquences annotées par des arcs Les informations conservées par les séquences anotées sont aussi bien la suite de nucléotides qui composent l’ARN que sa structure (helices boucles etc...). Toutes ces informations sont-elles nécessaires ? Il apparait que c’est la structure, plus que la sequence de nucléotides qui détermine la fonction d’un ARN (même si ces deux aspects ne peuvent être totalement séparés). Ainsi on peut imaginer de nouvelles représentations des ARN qui s’intéresseraient de façon plus accentuée à la structure pour elle-même.
Arbres enracinés et ordonnés La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés Deux codages possibles avec des granularités différentes : Un arc de l’arbre code pour une hélice ou une tige. Les boucles multiples sont les noeuds internes rouges Les boucles terminales sont les feuilles bleues Les noeuds internes rouges sont les paires de bases appariées. Les feuilles bleues sont les bases non appariées.
Arbres enracinés et ordonnés Voici un éventail de granularisations possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Comparaison – distance d’édition La distance d’édition entre deux séquences d’ARN se calcule par la somme des coûts des opérations successives d’insertion, délétion et substitution nécessaires au passage d’une structure à l’autre. Ces opérations sont réversibles. La distance d’édition entre deux séquences est donc strictement équivalente au calcul d’alignement de deux séquences.
Comparaison – distance d’édition La distance d’édition entre deux séquences d’ARN se calcule par la somme des coûts des opérations successives d’insertion, délétion et substitution nécessaires au passage d’une structure à l’autre. Ces opérations sont réversibles. La distance d’édition entre deux séquences est donc strictement équivalente au calcul d’alignement de deux séquences. On peut transposer ces opérations pour obtenir un calcul d’édition entre deux arbres quelconques (et en particulier au cas des arbres représentant des ARN Insertion/délétion du noeud jaune Substitution noeud noir/jaune
Comparaison – distance d’édition L’édition d’abres enracinés, ordonnés et étiquetés est pertinente pour la comparaison des ARN car elle permet de prendre en compte de manièreréaliste des phénomènes biologiques connus comme la perte de certaines bases (délétion), ou encore les mutations (chagement de base par une autre) mis en formalisé par les substitutions. Néanmoins, si on en reste à cette distance d’édition, d’autres réalités biologiques ne sont pas prises en compte, et des rapprochements “non souhaités” peuvent avoir lieu.
Comparaison d’ARN – distance d’édition Un exemple d’ “erreur” de rapprochement. On appellera ce phénomène la dispersion.
Comparaison d’ARN – distance d’édition Les lacunes de cette distance d’éditions : Exemple 1 :
Comparaison d’ARN – distance d’édition Exemple 2 :
2 nouvelles opérations d’édition La fusion de noeuds
2 nouvelles opérations d’édition La fusion de noeuds La fusion d’arcs Ces deux opérations conservent bien l’ordre des fils (essentiel pour exprimer des opérations possibles dans l’évolution d’un ARN)
Vers la bonne solution... Ces deux nouvelles opérations d’édition (et leur inverse) permettent d’associer un nombre quelconque d’éléments d’un arbre à un ou plusieurs éléments de l’arbre auquel il est comparé. Néanmoins, pour continuer d’exprimer des “réalité biologiques”, il est évident que des restrictions doivent être apportées à ces opérations : on ne peut pas fusionner n’importe quelles parties ensembles (ce qui reviendrait à associer des éléments de façon arbitraire, hors on veut toujours exprimer des phénomènes existants. Il serait donc intéressant d’ajouter une information supplémentaire aux arcs et aux noeuds de notre arbre. Il faudrait savoir pour chacun à quel élément structural COMMUN il appartient, et ne permettre les fusions que d’éléments appartenant à cette même structure. Comment définir cette appartenance à un élément structural commun? Comment conserver cette information ?
Conservation de la structure globale MiGaL Multiple Graph Layer
MiGaL – cas général Avant de nous intéresser aux RNA-MiGaL, décrivons la structure MiGaL dans le cas général. Il s’agit d’un ensemble de graphes G et d’un ensemble de raffinements R. Chaque graphe Gi (Si , Ai ) de G est composé d'un ensemble Si de sommets et un ensemble Ai d'arcs. Le raffinement Ri est une application de Si dans P(Si+1 ) c'est à dire qu'un sommet de Si a pour image un sous-ensemble de Si+1 . L'application réciproque est une application surjective appelée abstraction qui à tout sommet de Si+1 associe un sommet de Si . On peut ainsi définir une structure MiGaL par M(G,A), l'ensemble des graphes de M ainsi que des abstractions entre ces graphes.
MiGaL – cas général Avant de nous intéresser aux RNA-MiGaL, décrivons la structure MiGaL dans le cas général. Il s’agit d’un ensemble de graphes G et d’un ensemble de rafinements R. Chaque graphe Gi (Si , Ai ) de G est composé d'un ensemble Si de sommets et un ensemble Ai d'arcs. Le raffinement Ri est une application de Si dans P(Si+1 ) c'est à dire qu'un sommet de Si a pour image un sous-ensemble de Si+1 . L'application réciproque est une application surjective appelée abstraction qui à tout sommet de Si+1 associe un sommet de Si . On peut ainsi définir une structure MiGaL par M(G,A), l'ensemble des graphes de M ainsi que des abstractions entre ces graphes. G0 G1 G2
RNA-MiGaL Grâce à MiGaL, nous avons non seulement la possibilité de modéliser la structure secondaire d’un ARN selon des granularités croissantes, mais surtout nous avons la possibilité de transmettre sur plusieurs niveaux ces informations grâces aux applications de raffinement ! On définit un RNA-MiGaL comme une structure de type MiGaL composée de 4 arbres : T0 : réseau de boucles multiples
RNA-MiGaL Grâce à MiGaL, nous avons non seulement la possibilité de modéliser la structure secondaire d’un ARN selon des granularités croissantes, mais surtout nous avons la possibilité de transmettre sur plusieurs niveaux ces informations grâces aux applications de raffinement ! On définit un RNA-MiGaL comme une structure de type MiGaL composée de 4 arbres : T0 : réseau de boucles multiples T1 : réseau de tiges, boucles multiples et boucles terminales
RNA-MiGaL Grâce à MiGaL, nous avons non seulement la possibilité de modéliser la structure secondaire d’un ARN selon des granularités croissantes, mais surtout nous avons la possibilité de transmettre sur plusieurs niveaux ces informations grâces aux applications de raffinement ! On définit un RNA-MiGaL comme une structure de type MiGaL composée de 4 arbres : T0 : réseau de boucles multiples T1 : réseau de tiges, boucles multiples et boucles terminales T2 : les arcs codent les hélices. Un noeud peut coder pour une boucle multiple, une boucle interne, un renflement, une boucle terminale.
RNA-MiGaL Grâce à MiGaL, nous avons non seulement la possibilité de modéliser la structure secondaire d’un ARN selon des granularités croissantes, mais surtout nous avons la possibilité de transmettre sur plusieurs niveaux ces informations grâces aux applications de raffinement ! On définit un RNA-MiGaL comme une structure de type MiGaL composée de 4 arbres : T0 : réseau de boucles multiples T1 : réseau de tiges, boucles multiples et boucles terminales T2 : les arcs codent les hélices. Un noeud peut coder pour une boucle multiple, une boucle interne, un renflement, une boucle terminale. T3 : un noeud interne représente une baire de base, les feuilles les bases libres.
RNA-MiGaL Les applications de raffinement : R0 : Les noeuds correspondant aux boucles multiples sont mis en relation avec les noeuds codant pour ces mêmes boucles multiples dans T0 . Un noeud correspondant à une boucle terminale est mis en relation avec le même noeud que son père (qui code forcément pour une boucle multiple). R1 : Lorsque le noeud de T2 représente une boucle terminale ou une boucle multiple, il est mis en relation avec le noeud correspondant au même élément dans T1 . Si le noeud correspond à une boucle interne ou un renflement, celui-ci est mis en relation avec le noeud dont l'arc qui pointe dessus code pour la tige à laquelle appartient la boucle interne ou le renflement. R2 : A chaque noeud interne de T3 on associe le noeud de T2 tel que l’arc pointant sur ce noeud code pour l'hélice dont fait partie cette paire de base. A chaque feuille de T3 codant pour une base libre, R2 associe le noeud de T2 codant pour l’élément structural dont fait partie cette base.