240 likes | 370 Views
Changement de représentation et alignement de séquences. . Hugues DELALIN. Encadrement: E. Mephu Nguifo. Plan. Présentation Etude comparative des codages des acides aminés Alignement de séquences. Présentation. CRIL = Apprentissage symbolique Bioinformatique: E. MEPHU NGUIFO H. FU
E N D
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo
Plan • Présentation • Etude comparative des codages des acides aminés • Alignement de séquences
Présentation CRIL = Apprentissage symbolique Bioinformatique: E. MEPHU NGUIFO H. FU H. DELALIN Projets: Génopole Lille
Etude comparative des codages des acides aminés Huaiguo FUEncadrement: E. MEPHU NGUIFO
Codage des Acides Aminés Huaiguo FU[ Poster, ECCB’02 ] • Idée: Stocker des informations en plus du caractère.Ex: Alanine = A = 65 (ASCII)= 01000001 • But: Comparer 4 méthodes de représentation binaire des acides aminés afin de trouver la meilleure représentation possible.
Codage des Acides Aminés Huaiguo FU[ Poster, ECCB’02 ] • 2 codages basés sur les propriétés physico-chimiques des AAs:- Dickerson & Geis (1969)- Sallantin, Marlière & Saurin (1984) • 2 codages obtenus par des méthodes d’intelligence artificielle (IA):- Gracy & Mephu- De la Maza (1994)
Codage des Acides Aminés Huaiguo FU[ Poster, ECCB’02 ] Méthode de comparaison: • Clusterisation de chaque représentation (algorithme « Ward ») • Analyse manuelle de chaque cluster. • Validation grâce à l’algorithme C4.5
Codage des Acides Aminés Huaiguo FU[ Poster, ECCB’02 ] Résultats: • Les codages obtenus par apprentissage automatique peuvent refléter une certaine réalité biologique. • Ce n’est pas forcément les codages basés sur les propriétés des AA qui les représentent le mieux. Utilisation possible dans différentes applications
Alignement de séquences Hugues DELALIN Encadrement: E. MEPHU NGUIFO
Alignement de séquences. L’objectif de tels algorithmes est de révéler des régions proches. • Nécessité de mettre en œuvre des procédures de calcul et des modèles biologiques afin de quantifier la notion de ressemblance entre séquences. • On se base sur le principe de parcimonie.
Calcul d’un score. • Score peut mesurer rapprochement ou éloignement. • Attribution d’un score élémentaire pour chaque position. Exemple: A T T G C C : : : Score = 3 T T G C C C A T T G C C : Score = 1 T T G C C C A T T G C C : : : : : Score = 5 T T G C C C
Gestion des gaps. • Fixe : chaque insertion d’une base a le même coût. • Affine : définition d’un coût de création de gap et d’un coût d’extension. • Variable en fonction de l’endroit où on se trouve dans la séquence. (Argos et Vingron, 1990)
Remarques: • Le score d’un alignement dépend de la longueur de la zone de similitude que l’on considère. • On peut nuancer le calcul du score en donnant plus ou moins d’importance aux pénalités et aux associations possibles entre résidus.
Matrices de substitution. • Séquences d’ADN:- coût d’un « match » > 0.- coût d’un « mismatch » < 0. • Séquences protéiques:- matrices liées à l’évolution. (Dayhoff et al., 1978) (PAM) (Jones et al., 1992)- matrices liées aux caractéristiques physico-chimiques. (Henikoff et Henikoff, 1992) (BLOSUM)
Needleman & Wunsh (1970). Résultat: VT-EERDAF LTSHE--AL
Utilisation des représentations binaires. • On utilise les algorithmes classiques. • Les scores élémentaires ne sont plus obtenus grâce à une matrice de substitution. • Une opération booléenne entre les représentations des 2 acides aminés que l’on compare sert de base au calcul des scores élémentaires.
Choix de l’opérateur booléen. • ET logique si on ne s’intéresse qu’à la présence des attributs. • XOR: le OU exclusif si on s’intéresse autant à l’absence qu’à la présence des attributs. Exemple: A → 0001 ; L → 0011 A ET L→ 0001 A ¬XOR L → 1101
Exemple de résultat: Algorithme de Smith et Waterman (1981) • EMBOSS (BLOSUM62) • Identité: 34/173 (19.7%) • Gaps: 55/173 (31,8%) • d1qqp1_ 1 TTSAGESADPVT---TTVENY-------GGETQIQRRQHTDVSFIMDRFV 40 • |||..:|:..|| .|.|:: |.||::.: .:||. • d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQ---------AERFF 62 • BINALIGN (Gracy & Mephu, 12 attributs) • Identité: 54/221 (24.4%) • Gaps: 42/221 (19.0%) • d1qqp1_ 1 TTSAGESADPVT_T__TVENY__GGETQ_IQRRQHTDVSFIM_DRFVKVT 43 • |||...|...|| . |.|.. |..|. ...|......|.. ..|..|| • d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQAERFFKTHLFDWVT 71
Perspectives • Coût en temps d’exécution et espace mémoire. • Mesure de la qualité des alignements obtenus à partir de :- bases connues (CASA, SCOP)- alignements corrigés manuellement. • Alignement de structures (DSSP).
Références • Hubbard TJ, Ailey B, Brenner SE, Murzin AG, Chothia C. SCOP: a structural classification of proteins database. Nucleic Acids Res. 1999 27:254-256.http://scop.mrc-lmb.cam.ac.uk/scop/ • Kabsch W. & Sander C. Dictionary of protein secondary structure: Pattern recognition of hydrogen-bonded and geometrical features, Biopolymers. 1983 22:2577-2637.http://www.sander.ebi.ac.uk/dssp/ • Kahsay R, Dongre N, Guang G, Wang G, Dunbrack RL Jr. CASA: A Server for The Critical Assessment of Sequence Alignment Accuracy, Bioinformatics. Submitted.http://capb.dbi.udel.edu/casa/