250 likes | 456 Views
Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática. Matrizes para Análise de Similaridade entre Seqüências. Samuel Mazzinghy Alvarenga. Introdução. As Matrizes de valores são usadas em todas as análises que envolvem comparação de seqüências.
E N D
Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Matrizes para Análise de Similaridade entre Seqüências. Samuel Mazzinghy Alvarenga
Introdução As Matrizes de valores são usadas em todas as análises que envolvem comparação de seqüências A escolha da matriz tem uma influência forte no resultado da análise. Um entendimento do desenvolvimento das diferentes matrizes ajuda nesta escolha Tipos de matrizes de valores: Matriz unitária - usada para dar valores à pares de nucleotídeos Matrizes de substituição - usadas para darem valores à substituições de pares de aminoácidos.
A T C G A T C G A 5 -4 -4 -4 A 1 -1 -1 -1 T -4 5 -4 -4 T -1 1 -1 -1 C -4 -4 5 -4 C -1 -1 1 -1 G -4 -4 -4 5 G -1 -1 -1 1 Matriz Unitária ou Identidade Somente caracteres idênticos recebem valor positivo: • Valor > 0 para pares reais; • Valor ≤ 0 para pares falsos. As matrizes de similaridade usadas em: FASTA BLAST:
Matriz Unitária ou Identidade • Estas matrizes funcionam (e são usadas) ... • ...mas o mundo real é mais complicado. • As freqüências de transições (purina-purina; pirimidina-pirimidina) e transverções (purina-pirimidina e vice-versa) não são iguais. • - As freqüências de AT e CG variam entre as espécies, e entre regiões diferentes dos cromossomos. Deve se levar em consideração a variabilidade nas freqüências das substituições; é preciso uma análise mais sofisticada.
Matrizes de Substituição São tabelas bidimensionais (i, j) que contêm valores que demonstram a probabilidade de que o aminoácido da posição i sofra mutação para o aminoácido da posição j, quaisquer que sejam as duas seqüências envolvidas Para alinhamento de proteínas, o método de pontuação simples aplicado ao DNA não é suficiente. Os aminoácidos possuem propriedades bioquímicas que determinam como eles são substituídos durante a evolução. Por exemplo, existe uma maior probabilidade de que um aminoácido seja substituído por um outro de igual tamanho em vez de um aminoácido maior.
Matrizes de Substituição Dado que a comparação de proteínas e feita frequentemente com critérios evolutivos, e necessário um esquema de pontuação que leve em conta estas probabilidades Se a amostra é grande o suficiente para ser estatisticamente significante, as matrizes devem refletir as verdadeiras possibilidades de mutações que ocorreram ao longo de um certo período de evolução São geradas a partir de um grande e diverso número de amostras de pares de alinhamentos entre seqüências de aminoácidos
Matrizes de Substituição As mais conhecidas são : PAM (Point Accepted Mutation) BLOSUM (BLOcks SUbstitution Matrix)
Matrizes PAM (Dayhoff, 1978) Primeiras matrizes de substituição de aminoácidos, utilizadas nos alinhamentos efetuados na pesquisa de seqüências homólogas em base de dados biológicas A construção destas matrizes baseou-se na obtenção de dados sobre as substituições ocorridas em alinhamentos de proteínas muito semelhantes Permite obter relações evolutivas para proteínas da mesma família e permite ainda a extrapolação desta informação para outras distâncias evolutivas
Matrizes PAM Passos para a obtenção da matriz • Alinhamento de seqüências de amino ácidos com um mínimo de 85% de identidade. 1 2 3 4 5 6 7 8 9 A C G C T A F K I G C G C T A F K I A C G C T A F K L G C G C T G F K I G C G C T L F K I A S G C T A F K L A C A C T A F K L Exemplo • - minimiza ambigüidades no alinhamento • maximiza o número de posições com mutações (i.e. evitar introdução de • gaps)
ACGCTAFKI A1G I9L GCGCTAFKI ACGCTAFKL A6G A6L G3A C2S GCGCTGFKI GCGCTLFKI ASGCTAFKL ACACTAFKL Matrizes PAM Passos para a obtenção da matriz 2) Construir um arvore inferindo a seqüência das substituições
Matrizes PAM Passos para a obtenção da matriz 3) Faz a soma do número de cada mutação (as mutações a-b, e b-a são consideradas equivalentes neste modelo de evolução). fab= fba No exemplo acima, as mutações A1G, A6G e G3A dá um total de 3, portanto: fG,A = fA,G = 3
Matrizes PAM Passos para a obtenção da matriz 4) Calcula a mutabilidade relativa (ma) de cada aminoácido a) Probabilidade (freqüência) de a no alinhamento, pa, onde E.g. alanina aparece 10 vezes de um total de 63 aas; pa = 10/63 = 0,1587 b) O número de vezes que a é substituída (fa): E.g. de alanina, A1G, A6G, A6L e G3A: fa= 4 c) O número total de aas envolvidos em mutações (f): no exemplo são 6 mutações, portanto 6 x 2 aas: f = 12 Mutabilidade relativa, ma: Fator de 100 “normaliza” a mutabilidade para a taxa de substituições por 100 aas.E.g. de alanina ma = 4 / (100 x 12 x 0,1587 ) = 0,0209
5) Mab é a probabilidade que a b: = P (a b) = Matrizes PAM Passos para a obtenção da matriz E.g. para alanina/glicina; fab =3 (passo 3); fa = 4 (passo 4b); ma = 0,0209 (passo 4c) MA,G = ( 3 / 4 ) x 0,0209 = 0,0156 6) Calcular a probabilidade de não ocorrer nenhuma mutação - Maa 7) Finalmente calcula a matriz, Rij, (Relatedness Odds Matrix) normalizando as probabilidades de mutação (Mab) com a probabilidade (freqüência) de cada aa no alinhamento (pb): E.g. RA,G = MA,G/ fG = 0,0156 / (10 / 63 ) = 0.0982
Matrizes PAM A matriz calculada foi normalizada para uma mutação por 100 aas (passo 4). Por isso a matriz é chamada PAM1 A manipulação matemática permite que esta matriz possa usada para calcular outras matrizes: Depois desses cálculos, os números ficam grandes, e para facilitar a manipulação rápida nos algoritmos computacionais, o logaritmo da matriz é usado (logarithm of odds):
Matrizes PAM Para k = 250 i.e 2,5 substituições por posição no alinhamento OU: 250 substituições por 100 aa no alinhamento: PAM250
Matrizes PAM • Vantagens de matrizes PAM: • Uma metodologia foi estabelecida para quantificação de processos evolutivos baseado em observação empíricas • - Válida para aplicações que mimetizam o processo de comparação de alinhamentos que gerou a matriz. E.g. busca de parálogos/ortólogos com alto nível de identidade entre as seqüências • Desvantagens de matrizes PAM: • Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição “padrão” de aas • O modelo evolutivo usado é muito simplificado – a substituição dos aas não é aleatória (conservação de motifs por exemplo)
Matrizes BLOSUM (Henikoff, 1992) Foram obtidas a partir de um enorme volume de dados pertencentes à base de dados, BLOCKS, de famílias de proteínas As seqüências foram agrupadas sempre que a percentagem de caracteres idênticos excedesse um determinado nível L
Matrizes BLOSUM Passos para a obtenção da matriz • Construir um alinhamento sem gaps das regiões conservadas de uma família de proteínas. Regiões chamadas de blocos conservados (conserved blocks) são identificadas, e são analisadas para calcular as matrizes 1 2 3 4 5 1 S A A I F 2 A S A L G 3 Q T A L Y 4 T T A V E 5 L A A L N Blocos conservados de mais de 1500 famílias de proteínas estão disponíveis no banco de dados BLOCKS: http://blocks.fhcrc.org/ Bloco conservado
E.g. Análise da 1o coluna: 1 A A I 2 S A L 3 T A L 4 T A V 5 A A L 1.vs.2:A-S 2.vs.1:X 3.vs.1:X 4.vs.1:X 1.vs.3:A-T 2.vs.3:S-T 3.vs.2:X 4.vs.2:X 1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T 4.vs.3:X 1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A O mesmo par e contado uma vez só Matrizes BLOSUM Passos para a obtenção da matriz • 2) Eliminação de seqüências com alto grau de identidade. • - Este passo evita que os blocos analisados contenham “bias” • - As seqüências similares são eliminadas ou substituídas por uma seqüênciasconsenso. • O grau de similaridade entre as seqüências no bloco pode ser escolhido. • E.g. Análises de blocos de seqüências com 50% ou 80% similaridade resultam em matrizes BLOSUM50 e BLOSUM80 respectivamente. 3) Contar pares de aas em cada coluna:
Número de um par observado qab = Número total de pares AS: 2 AT: 4 AA: 1 ST: 2 TT: 1 --- 10 qAS: 0,2 qAT: 0,4 qAA: 0,1 qST: 0,2 qTT: 0,1 TOTAL = Matrizes BLOSUM Passos para a obtenção da matriz 4) O número total de pares é uma medida da probabilidade de substituições entre dois aas (qij) para formar uma matriz, M, 20x20. No exemplo: 5) Calcular a freqüência de cada aa (pi): E.g. Treonina e Alanina no exemplo acima: PT = qTT + (qAT + qST)/2 PA = qAA + (qAT)/2 = 0,1 + (0,4+0,2)/2 = 0,1 + (0,4)/2 = 0,4 = 0,3
Matrizes BLOSUM Passos para a obtenção da matriz 6) a) Calcula a freqüência de cada par de aas (eab): eij = 2pi pj , i = j eij = pi2 , i = j para os pares TT e AT no exemplo: eTT = 0,4 x 0,4 = 0,16 eAT = 2 x 0,3 x 0,4 = 0,24 b) Para cada elemento i e j na matriz M, calcular a probabilidade normalizada: Sij = log2 ( qij / eij ) Esta matriz representa um “logarithm of odds” e está pronta para ser usada por algoritmos computacionais
Matrizes BLOSUM A matriz BLOSUM62- Sa,b = log2 ( qa,b / pa )
PAM vs. BLOSUM O modelo PAM tem a capacidade de evidenciar a origem evolutiva de proteínas O modelo Blosum tem a capacidade de evidenciar domínios conservados em proteínas Regras práticas • Baixas PAMs e elevadas Blosums encontram pequenos alinhamentos locais com elevada semelhança • Elevadas PAMs e baixas Blosums encontram alinhamentos locais mais fracos mas longos
PAM vs. BLOSUM Defina a pergunta e depois escolha a matriz