1 / 64

Alinhamento de Seqüências

Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática. Alinhamento de Seqüências. Samuel Mazzinghy Alvarenga. DNA. Proteína. Estrutura. Função. Análise de Seqüências. Possíveis Estratégias. Isolamento do gene e análise do seu produto no laboratório.

oriole
Download Presentation

Alinhamento de Seqüências

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Alinhamento de Seqüências Samuel Mazzinghy Alvarenga

  2. DNA Proteína Estrutura Função Análise de Seqüências

  3. Possíveis Estratégias • Isolamento do gene e análise do seu produto no laboratório • Comparação de seqüências com bancos de dados de seqüências e identificação de genes por homologia

  4. Alinhamento de seqüências Um dos objetivos do alinhamento é determinar quando duas seqüências são suficientemente similares que justifiquem uma inferência de homologia. A partir de um alinhamento podemos inferir se duas seqüências biológicas estão evolutivamente relacionadas ou não

  5. Similaridade x Homologia Por similaridade entende-se como uma quantidade que expressa esse conceito intuitivo. Homologia, por outro lado, refere-se ao fato de dois genes partilharem ou não uma história evolutiva comum.

  6. Estratégia geral Após o seqüênciamento é possível reconhecer uma semelhança entre a nova seqüência e uma seqüência sobre a qual já existe alguma informação O uso de algoritmos permite comparar uma seqüência ‘objeto’ com um banco de dados de seqüências;

  7. Estratégia geral A comparação é feita alinhando-se a seqüência ‘objeto’ a seqüências ‘alvo’ de um banco de dados; A cada comparação é dado um valor, que é a medida de similaridade entre um par de seqüências; A discriminação entre pares reais e artificiais é feita através de uma estimativa da probabilidade que o pareamento tenha ocorrido ao acaso.

  8. Ou seja : O valor do alinhamento é a soma dos valores correspondentes a todos os caracteres alinhados, mais os valores correspondentes aos espaçamentos Função de Mérito No contexto da Bioinformática o objetivo é obter o alinhamento com o maior significado biológico O valor atribuído a cada alinhamento é calculado utilizando a seguinte expressão: sendo s(s1(i),s2(i)) o valor associado ao alinhamento dos caracteres i das seqüências s1 e s2, e sendo G(g) o valor associado aos espaçamentos existentes

  9. Pontuação do alinhamento A qualidade de cada par de seqüências alinhadas é representado por um valor - o score. • Score é o valor associado a um alinhamento, baseado em punições, relacionadas a gaps e a substituições, e em premiações, relacionadas a identidades. • Os valores das punições e premiações são obtidos através das matrizes de valores.

  10. Estatística do alinhamento A significância estatística de um alinhamento é calculado pelo E-value E-value: Número de alinhamentos diferentes com scores equivalentes ou melhores que S que é esperado que ocorra numa busca num banco de dados por acaso. Quanto menor o E-value, mais significativo é o score. m = Tamanho do banco de dados n = Tamanho da query (sua pesquisa) s = Score

  11. Matrizes de Valores • Matriz unitária - usada para dar valores à pares de nucleotídeos. • Matrizes de substituição - usadas para darem valores à substituições de pares de aminoácidos.

  12. | | : | | | | : | | | | | | | | | | C L R I F N V F S G M Q W M A H T K R M S Score IDENTIDADE 16/21 = 76,19% SIMILARIDADE 18/21 = 85,71% IDENTIDADE : Resíduos iguais SIMILARIDADE : Resíduos iguais + resíduos parecidos Score, Identidade e Similaridade C L K I A N V F G G P Q W M A C T K R M S 9 4 2 4 -2 6 4 6 0 6 -2 5 11 5 4 -3 5 5 5 5 4 = 83

  13. S-----LNSGYHFC SYQEGFL-S-FHFC Espaçamentos - GAPS SLNSGYHFC SYQEGFLSFHFC GAP

  14. Penalidades Penalties Gap = -5 Gap extension = -2 Gap extension S-----LNSGYHFC : SYQEGFL-S-FHFC +4 -5 -2 -2 -2 -2 +4 -5 +4 -5 +3 +8 +6 +9 = 15

  15. Métodos de Alinhamento Globais - Similaridade considerada ao longo de toda a extensão da seqüência - É apropriado para comparar seqüências cujas semelhanças sejam esperadas em toda a sua extensão - O alinhamento maximiza as regiões de semelhança e minimiza os espaçamentos Locais - As regiões de similaridade constituem uma fração da extensão da seqüência - É muito útil para fazer pesquisas em base de dados - É muito útil em situações onde não existe qualquer conhecimento sobre a semelhança entre as seqüências a comparar

  16. Alinhamento Global x Local Alinhamento Global --T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC | || | || | | | ||| || | | |||| | AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C Alinhamento Local tccCAGTTATGTCAGgggacacgagcatgcagagac |||||||||||| aattgccgccgtcgttttcagCAGTTATGTCAGatc

  17. Considere duas seqüências de tamanho n Pergunta: • Quantos possíveis alinhamentos existem entre as duas cadeias de caracteres? Resposta: • Se não for permitido espaçamentos, então existe apenas um alinhamento possível • Se forem permitidos espaçamentos, é necessário enumerar todos os alinhamentos entre todas as subseqüências das duas cadeias de caracteres

  18. Pretende-se obter o melhor de todos Existem possíveis alinhamentos globais

  19. duas seqüências de tamanho 1000 têm ~10600 alinhamentos possíveis Então... Para n = 20, temos cerca de 120 bilhões de alinhamentos possíveis Na prática pretendemos alinhar seqüências muito, mas muito mais longas Algumas proteínas têm mais de 1000 aminoácidos Os genes podem ter vários milhares de pares de bases

  20. WEAGAWGHE-E P-A--W-HEAE WEAGAWGHE-E --P-AW-HEAE Exemplo S1 = WEAGAWGHEE S2 = PAWHEAE Desigualdade (mismatch) Igualdade (match) Espaçamento (gap) Qual o melhor ???

  21. Ferramenta matemática Alinhamento de Par de Seqüências Programação Dinâmica Busca de solução de problemas de otimização por meio de uma seqüência de subproblemas semelhantes

  22. Programação Dinâmica (DP) Algoritmo que permite obter alinhamentos ótimos utilizando funções de mérito aditivas Tradução : O valor do alinhamento é a soma dos valores correspondentes a todos os caracteres alinhados, mais os valores correspondentes aos espaçamentos Estes algoritmos garantem como solução o melhor alinhamento ou o melhor conjunto de alinhamentos

  23. Programação Dinâmica (DP) Utiliza a informação conseguida anteriormente para obter a nova informação Novo melhor alinhamento = melhor alinhamento anterior + melhor local Melhor alinhamento anterior Seqüência A Seqüência B

  24. Programação Dinâmica (DP) Problema:Alinhamento_par_seqüência Entrada:Duas seqüências x,y Matriz de mérito s(x,y) Valor do espaçamento d Saída:O melhor alinhamento

  25. EXEMPLO: Duas seqüências de aminoácidos x: HEAGAWGHEE y: PAWHEAE d = -8 (gap, penalidade, espaçamento) s(xi,yj) = BLOSUM50

  26. Alinhamento Global: Algoritmo Needleman-Wunsh (1970) Idéia: Construir um alinhamento ótimo utilizando soluções ótimas obtidas anteriormente para subseqüências menores • Constrói uma matriz F com índices i e j, um para cada Seqüência • O valor F(i,j) representa o melhor obtido pela função de mérito para o alinhamento de x1...i com y1...j • Constrói F(i,j) de uma forma recursiva

  27. Matriz F i j

  28. Esquema do Algoritmo Iniciar primeira linha e coluna da matriz : F(1,0) = -1x8 = -8 ; F(2,0) = -2x8 = -16 ... F(10,0) = -10x8 = -80 H E A G A W G H E E F(0,0) = 0, F(i,0) = -id, F(0,j) = -jd 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 A -16 W -24 H -32 F(0,1) = -1x8 = -8 F(0,2) = -2X8 = -16 ... F(0,7) = -7x8 = -56 E -40 A -48 E -56

  29. F(i - 1, j - 1) + s(xi, yi) F(i - 1, j) + d F(i, j - 1) + d F(i, j) = máx. Ou seja : Valor da célula diagonal + valor da pontuação F(i-1,j-1) F(i,j-1) Valor da célula acima + valor do gap s(xi,yj) -d -d Valor da célula ao lado + valor do gap F(i-1,j) F(i,j) Esquema do Algoritmo Preencher o resto da matriz de cima para baixo, e esquerda para a direita usando a seguinte relação de recorrência:

  30. Em caso de valores iguais, obedecer a prioridade> > Esquema do Algoritmo Colocar uma seta apontando a célula de maior score (valor de máx.) Exemplo: H E A G A W G H E E F(1,1) Acima = -8 -8 = -16 Diagonal = 0 -2 = -2 Ao lado = -8 -8 = -16 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -41 -49 -57 -65 -73 A -16 W -24 F(4,1) Acima = -32 -8 = -40 Diagonal = -24 -2 = -26 Ao lado = -17 -8 = -25 H -32 E -40 A -48 E -56

  31. Esquema do Algoritmo F(m, n) tem a pontuação de alinhamento ótima H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -41 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 Melhor score para o alinhamento H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

  32. Esquema do Algoritmo Refazer o caminho de volta desde F(m, n) até F(0, 0) para recuperar o alinhamento. H E A G A W G H E E = Ambas 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -41 -49 -57 -65 -73 = gap em cima A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 = gap embaixo W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 Alinhamento: E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 H E A G A W G H E E - A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E A W H E - - P - - A E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

  33. Score do alinhamento final WEAGAWGHE-E --P-AW-HEAE -8 -8 -1 -8+5 +15-8+10 +6-8+6 = 1

  34. Alinhamento Local Útil para comparar seqüências de proteínas que partilham um motivo (padrão conservado) ou domínio (unidade independente enrolada) mas que diferem no restante da seqüência Útil para comparar seqüências de DNA que partilham um motivo (padrão conservado) mas que diferem no restante da seqüência Mais preciso para comparar seqüências que divergiram muito

  35. Alinhamento Local

  36. Alinhamento Local Muito parecido com o alinhamento global • Duas diferenças: • F(i,j) tem valor 0 se as outras opções têm valor menor que 0 • Corresponde a iniciar um novo alinhamento • A primeira coluna e a primeira linha é preenchida com 0s • Um alinhamento pode ser terminar em qualquer lugar na matriz • Procurar o valor mais alto de F(i,j) ao longo de toda a matriz • Começar a refazer o caminho de volta a partir desse ponto

  37. 0 F(i - 1, j - 1) + s(xi, yi) F(i - 1, j) + d F(i, j - 1) + d F(i, j) = máx. Alinhamento Local Algoritmo de Smith-Waterman, 1981

  38. Exemplo: F(3,2) Acima = 0 -8 = -8 0 Diagonal = 0 +5 = 5 Ao lado = 0 -8 = -8 0 F(5,7) Acima = 5 -8 = -3 0 Diagonal = 13 -1 = 12 Ao lado = 18 -8 = 10 Esquema do Algoritmo Colocar uma seta apontando a célula de maior score (valor de máx.) H E A G A W G H E E 0 0 0 0 0 0 0 0 0 0 0 P 0 0 0 0 0 0 0 0 0 0 0 A 0 0 0 5 0 5 0 0 0 0 0 W 0 0 0 0 2 0 20 12 4 0 0 H 0 10 2 0 0 0 12 18 22 14 6 E 0 2 16 8 0 0 4 10 18 28 20 A 0 0 8 21 13 5 0 4 10 20 27 E 0 0 6 13 18 12 4 0 4 16 26

  39. Esquema do Algoritmo Começa do maior score e faz o caminho de volta até o primeiro 0 H E A G A W G H E E = Ambas 0 0 0 0 0 0 0 0 0 0 0 P 0 0 0 0 0 0 0 0 0 0 0 = gap em cima A 0 0 0 5 0 5 0 0 0 0 0 = gap embaixo W 0 0 0 0 2 0 20 12 4 0 0 H 0 10 2 0 0 0 12 18 22 14 6 Alinhamento: AWGHE AW-HE E 0 2 16 8 0 0 4 10 18 28 20 A 0 0 8 21 13 5 0 4 10 20 27 E 0 0 6 13 18 12 4 0 4 16 26

  40. Alinhamento Heurístico Os algoritmos de programação dinâmica descritos encontram uma solução ótima Esses algoritmos são desenvolvidos para encontram o melhor score Entretanto, eles não são métodos de alinhamento rápidos • Base de dados de proteínas atual: 100 milhões de resíduos aproximadamente • seqüência de tamanho 1000 => matriz com 1011 células • 106 células por segundo => 3 horas

  41. Alinhamento Heurístico Alinhamento ótimo: produz o melhor resultado computacionalmente possível Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz A abordagem heurística sacrifica a sensibilidade • Os algoritmos podem perder o alinhamento de melhor score Algoritmos mais conhecidos: - BLAST (Basic Local Alignment Search Tool) - FASTA

  42. BLAST (Altschul et al, 1990) Dizem que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas

  43. BLAST Conjunto de programas utilizados para execução de buscas por similaridades estatisticamente significantes em bancos de dados de seqüências É a ferramenta de alinhamento mais conhecida e utilizada no mundo É um algoritmo de alinhamento simples, heurístico e local

  44. Formato da Seqüência de Entrada Banco de dados Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos Nucleotídeos Nucleotídeos BLASTn Proteínas Proteínas Proteínas BLASTp Nucleotídeos Proteínas Proteínas BLASTx Proteínas Nucleotídeos Proteínas TBLASTn Nucleotídeos Nucleotídeos Proteínas TBLASTx BLAST Consiste em diferentes subprogramas

  45. BLAST Outros programas : PSI-BLAST (Position-Specific Iterated) Executa um BLAST normal, depois realiza um alinhamento multiplo e constrói uma “Specific Scoring Matrix”, que é utilizada para uma segunda busca do BLAST. Se novos matches são encontrados, uma nova matriz é feita e o processo repetido Permite comparar proteínas fracamente relacionadas, mas com regiões bem conservadas. Para cada posição da seqüência usada como query, um valor é associado para cada resíduo. Quanto mais conservado o resíduo, maior o score.

  46. PSI-BLAST (Position-Specific Iterated) • Compara a query com um banco de proteínas. • É construído um alinhamento múltiplo, e a partir deste um perfil(seqüência + matriz de pontuação). • O perfil é comparado com o banco de proteínas em busca de alinhamentos locais. • PSI-BLAST estima a significância estatística dos alinhamentos encontrados. • Finalmente, PSI-BLAST retorna ao passo 2por um número arbitrário de vezes, até convergir.

  47. PHI-BLAST (Pattern Hit Initiated) Busca matches de padrões dentro da seqüência (algumas vezes motifs, mas nem sempre) que são utilizados para iniciar os alinhamentos. Obs: o padrão tem que acontecer dentro da seqüência de busca PHI-BLAST espera como input uma seqüência de proteína e um padrão (pattern) contido nessa seqüência. PHI-BLAST procurara por outras seqüências de proteína que também contêm o padrão da entrada e têm a similaridade significativa à query na vizinhança das ocorrências do teste padrão.

  48. PHI-BLAST (Pattern Hit Initiated) O significado estatístico é relatado usando E-values como nos outros formulários do BLAST, mas o método estatístico para computar os E-values é diferente. PHI-BLAST é integrado com o PSI-BLAST, de modo que os resultados de uma pergunta de PHI-BLAST possam ser usados iniciar um ou mais rounds de procuras no PSI-BLAST.

  49. PHI-BLAST (Pattern Hit Initiated)

More Related