220 likes | 329 Views
Alinhamento de sequências. Almir R. Pepato. Homologia primária e secundária. 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes – codificação dos caracteres e seus estados- homologia primária sensu Pinna , 1990)
E N D
Alinhamento de sequências Almir R. Pepato
Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes – codificação dos caracteres e seus estados- homologia primária sensuPinna, 1990) 2- Busca do esquema de relações filogenéticas ótima segundo algum critério, levando a proposição de hipóteses filogenéticas. De acordo com a topologia obtida caracteres codificados sob o mesmo estado podem se revelar verdadeiras sinapomorfias ou homoplasias (homologia secundária sensuPinna, 1990).
O problema da homologia no que se refere às sequências de nucleotídeos A rose is a rose is a rose is a rose is a rose Gertrude Stein
Alinhamento como problema informacional • Custos altos • para substituições : • TCAG-ACG-ATTG • | |||||| • TC-GGA- GC-T- G • 0 mis 7 mat 6 gaps • 2. Custos altos • para as inserções/deleções : • TCAGACGATTG • | ||| • TCGGAGCTG–- • 5 mis 4 mat 2 gaps A maior parte dos programas usa um sistema de custos para substituições, introdução de inserções/deleções e outros eventos. Como a enumeração/avaliação de todas as possibilidades seria muito custosa, os programas usam o recurso da programação dinâmica como com o algoritmo de Needleman & Wunch.
Alinhamento como problema informacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Preenchendo a matriz: Substituição= -1 gap= -1 Regra: Fij = max(Fi − 1,j − 1 + Sij, Fi,j − 1 + gap, Fi − 1,j + gap) Para preencher a casa, X= Fij = max(0 + 0, -1-1, -1-1) = 0
Alinhamentocomoproblemainformacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Preenchendo a matriz: Substituição= -1 gap= -1 Regra: Fij = max(Fi − 1,j − 1 + Si,j), Fi,j − 1 + gap, Fi − 1,j + gap) Para preencher a casa, X= Fij = max(-2 + 0, -3-1, -3-1) = -2
Alinhamento como problema informacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento
Alinhamento como problema informacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento Caminho 1 (1 sub, 1 gap): AA T G C | | | | A- G G C
Alinhamento como problema informacional Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento Caminho 1 (1 sub, 1 gap): AA T G C | | | | A- G G C Caminho 2 (1 sub., 1 gap): AA T G C | | | | AG - G C
Alinhamentos de múltiplas sequências Soma com pesagem de Pares WSP (WeightedSumofPairs): WSP= ∑ ∑ WijDij Complexidade informacional: O (NM): Proporcional ao comprimento da sequência elevado ao número de sequências Poucos programas implementam (BaliBase, FastMSA), pois pode ser usado para poucas sequências! i j
Clustal Método Heurístico: Não garante que todo o espaço de respostas ao problema será examinado. Passos: 1- Faz um alinhamento empregando uma função de custos para todos os possíveis pares de sequências. 2- A partir daí monta uma matriz de distâncias para todas as sequências
Clustal 3-Daí deriva-se uma árvore de similaridade. Para cada nó da árvore é produzido um alinhamento aos pares, que produz uma sequência de consenso para o próximo alinhamento. Note que os gaps introduzidos nas sequências que são alinhadas nas primeiras etapas não podem ser modificados!
Malign, POY e Otimização Direta O POY é um programa que implementa uma série de algoritmos para inferência filogenética, a maior parte dos quais baseado na parcimônia como critério de otimização. A Otimização Direta consiste na otimização dos caracteres das sequências diretamente, sem o passo preliminar de inferência das homologias primárias
Malign, POY e Otimização Direta Uma análise empregando a otimização direta geralmente inclui: 1- O teste do maior número possível de combinações de valores de custo, já que como qualquer outro método automático, o resultado é dependente dele. 2- A presença/ausência de clados nos diversos valores de custo é compilada. A assim chamada análise de sensibilidade é vista como uma medida da estabilidade dos clados. 3- Um regime de custos ótimo é escolhido de forma a minimizar a incongruência entre as partições de dados. A incongruência é medida através de índices como ILD, RILD, TILD etc...
Alinhamento como problema biológico Mas será mesmo o alinhamento um problema informacional? Não pode ser tratado como um problema biológico onde a homologia é inferida levando em conta informações relacionadas a processos biológicos?
Homologia molecular: sumário • As inserções/deleções são inferências feitas durante o estabelecimento de relações de homologia. Tem dois impactos sobre a inferência filogenética: levam a introdução de uma certa margem de erro, intrínseca a qualquer inferência por um lado, e informação filogenética adicional por outro. • Como nas análises morfológicas, o estabelecimento das homologias primárias e a construção da matriz é o alicerce sobre o qual a inferência é assentado. Pouca atenção tem sido dada a esse aspecto, no entanto. • Há debate na literatura sobre cada um dos métodos descritos nessa aula. Algo mandatário, no entanto, é que as hipóteses de homologia fiquem tão explicita ao leitor de um artigo de sistemática molecular quanto o que ficaria a um que use caracteres morfológicos.