370 likes | 468 Views
Análise Computacional de Seqüências Nucleotídicas e Protéicas. Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004. Um exemplo de um alinhamento múltiplo. Porque precisamos de alinhamentos múltiplos?.
E N D
Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004
Porque precisamos de alinhamentos múltiplos? • Um alinhamento múltiplo, seja de sequências de DNA ou de proteína, pode fornecer muito mais informação do que uma única sequência. • Quando lidando com uma nova proteína, de função desconhecida, a presença de domínios similares a outros em proteínas conhecidas pode implicar em função ou estrutura semelhante.
Porque precisamos de alinhamentos múltiplos? • É sabido que a pressão seletiva resulta da necessidade de se conservar uma função. • Em proteínas, a manutenção da função requer uma estrutura 3D específica. Portanto, alinhamentos múltiplos de proteínas podem fornecer alguma informação sobre a estrutura 3D das mesmas.
Estratégia Alinhamento par-a-par Busca nos bancos de dados Alinhamento múltiplo
Estratégia Alinhamento múltiplo Modelagem por homologia Análise filogenética Buscas avançadas em bancos de dados: padrões, motivos, promotores
Porque precisamos de alinhamentos múltiplos? • Para revelar os relacionamentos entre um grupo de sequências (homologia). • Para caracterizar famílias protéicas – identificar regiões conservadas e determinar as regiões variáveis. • Regiões similares podem indicar funções similares (por exemplo, promotores no DNA).
Porque precisamos de alinhamentos múltiplos? • Planejar mutações pontuais, desenhar primers e/ou sondas especiais. • Construir um perfil da família, o que possibilitará buscas mais avançadas, capazes de localizar membros mais distantes da mesma família.
Porque precisamos de alinhamentos múltiplos? • Alinhamentos múltiplos são utilizados por programas de modelagem protéica. • Podem ajudar na predição das estruturas secundária e terciária de novas sequências. • Alinhamentos múltiplos servem de input para a construção de árvores filogenéticas.
O desafio computacional dos alinhamentos múltiplos • Encontrar o alinhamento ótimo de um grupo de sequências incluindo matches, mismatches e gaps é muito difícil. • Para alinhamentos par-a-par, métodos de programação dinâmica são utilizados, mas não são práticos para alinhamentos múltiplos (muitos cálculos, muito tempo de CPU).
O desafio computacional dos alinhamentos múltiplos • As dificuldades de se alinhar um grupo de sequências variam conforme o grau de similaridade entre as sequências. • Um alto grau de variação entre as sequências implica em um grande número de alinhamentos possíveis, o que torna muito difícil encontrar o alinhamento “ótimo”.
O desafio computacional dos alinhamentos múltiplos • Métodos aproximados são utilizados ao invés de métodos de programação dinâmica. • Outro desafio computacional é a inserção e pontuação de gaps nas sequências alinhadas.
Métodos aproximados • Alinhamento global progressivo de todas as sequências. Começa com as sequências mais similares, construindo o alinhamento pela adição do resto das sequências. • Métodos iterativos: começa pela construção de um alinhamento múltiplo de um pequeno grupo de sequências, e depois revisa o alinhamento para a obtenção de melhores resultados.
Métodos aproximados • Alinhamentos baseados em pequenos domínios (ou padrões) conservados, encontrados na mesma ordem nas sequências alinhadas. • Alinhamentos baseados em modelos probabilísticos ou estatísticos das sequências.
Alinhamento múltiplo • O método mais prático e utilizado para a construção de alinhamentos múltiplos é o alinhamento global progressivo. • Como funciona?
Passos para a construção de um alinhamento múltiplo • Comparações par-a-par de todas as sequências. • Começa com o par mais relacionado (similar), depois o par seguinte, e assim por diante. • Realizar análise de “clusterização” para a obtenção de uma hierarquia para o alinhamento, que pode ser na forma de uma árvore binária.
Dicas na escolha de suas sequências • Sequências retiradas diretamente dos bancos de dados podem conter dados irrelevantes (vários genes, fragmentos de diferentes tamanhos). Cheque suas sequências e use somente a parte relevante para o alinhamento. Edite e remova as outras partes antes do alinhamento. • Tente usar sequências com aproximadamente o mesmo tamanho para o alinhamento.
Dicas na escolha de suas sequências • De forma geral: • Quanto mais sequências, melhor. • Não inclua sequências muito similares (>80%). • Os sub-grupos devem ser alinhados separadamente, e somente um membro de cada sub-grupo deve ser incluído no alinhamento múltiplo final.
O que você necessita saber sobre os programas para a construção de alinhamentos múltiplos • Quase todos os programas irão alinhar quaisquer sequências que o usuário fornecer como input. • Sempre retornarão um alinhamento, mesmo que as sequências não sejam relacionadas entre si. • A maioria dos programas irá inserir gaps. Entretanto, uma vez inseridos, eles estão lá para ficar. • Você deve checar como o programa trata com a inclusão de gaps nos finais das sequências.
Métodos de alinhamento múltiplo global • Clustalw • http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html • MSA • http://www.ibc.wustl.edu/ibc/msa.html • PRALIGN • http://mathbio.nimr.mrc.ac.uk/~jhering/pralign
Métodos iterativos de alinhamento múltiplo • DIALIGN • http://www.gsf.de/biodv/dialign.html • MultAlign • http://protein.toulouse.inra.fr/multalign.html
Métodos de alinhamento múltiplo local • BLOCKS • http://blocks.fhcrc.org/blocks/ • HMMER • http://hmmer.wustl.edu • MEME • http://meme.sdsc.edu/meme/website • SAM • http://www.cse.ucsc.edu/research/compbio/sam.html
ClustalW • O ClustalW pode criar alinhamentos múltiplos, editar alinhamentos existentes e criar árvores filogenéticas. • O alinhamento pode ser feito por dois métodos: • Lento e preciso • Rápido e aproximado
ClustalW • O seu algoritmo consiste em três etapas: • 1. Alinhamentos par-a-par são feitos entre todas as sequências no grupo em estudo. Pontuações são utilizadas para se construir uma matriz de distâncias. Ao calcular essa matriz, o programa leva em consideração a divergência entre as sequências.
ClustalW • 2. Uma árvore “guia” (filogenética) é construída a partir da matriz de distâncias utilizando o método de neighbour-joining. Essa árvore-guia tem ramos de diferentes tamanhos. Seu tamanho é proporcional ao tempo de divergência estimado ao longo de cada ramo.
ClustalW • 3. O alinhamento progressivo das sequências é feito, seguindo a ordem dos ramos na árvore-guia. As sequências são alinhadas das extremidades até a raiz. Este alinhamento é feito de acordo com as relações filogenéticas encontradas na árvore-guia.
Outras opções • T-Coffee • http://igs-server.cnrs-mrs.fr/Tcoffee/ • PileUp (GCG) • http://www.accelrys.com/products/gcg_wisconsin_package/
T-Coffee • Gera dois conjuntos de alinhamentos, um global (ClustalW) e outro local (lalign). • Pesa, compara e combina. • Faz pontuação posição-específica. • Alinhamento progressivo (as penalidades para os gaps não são necessárias devido a estratégia de ponderação)
PileUp (GCG) • O PileUp cria um alinhamento múltiplo de sequências a partir de um grupo de sequências relacionadas usando alinhamentos par-a-par de forma progressiva. Também pode “plotar” uma árvore mostrando os agrupamentos usados na construção do alinhamento.
PileUp (GCG) • O PileUp faz alinhamento par-a-par de todas as sequências utilizando o método de Needleman & Wunsch. • As pontuações dos alinhamentos são utilizadas para produzir uma árvore pelo método UPGMA (Unweighted Pair-Group Method with Arithmetic mean) de Sneath & Sokal. • Esta árvore é usada para guiar o alinhamento de um grupo de sequências relacionadas.
PileUp (GCG) • O PileUp faz um alinhamento múltiplo global, e portanto é bom para um grupo de sequências similares. • Irá falhar na determinação da região de maior similaridade (como por exemplo um motivo compartilhado) entre sequências relacionadas mas distantes. • Sempre alinha todas as sequências que você especificar, mesmo que não sejam relacionadas. O alinhamento pode perder em qualidade caso algumas das sequências sejam relacionadas mas bastante divergentes.