320 likes | 412 Views
Curso de Introdução à Bioinformática. Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz. Alinhamentos Múltiplos. Marcos Catanho. Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz. Agenda. Motivação Estratégias de alinhamento múltiplo
E N D
Curso de Introdução à Bioinformática Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz Alinhamentos Múltiplos Marcos Catanho Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz
Agenda • Motivação • Estratégias de alinhamento múltiplo • Dificuldades computacionais • Métodos de alinhamento múltiplo • Programas de alinhamento múltiplo • Dicas importantes • Alinhamento global progressivo (ClustalW)
Porque precisamos de alinhamentos múltiplos? • Um alinhamento múltiplo, seja de sequências de DNA ou de proteína, pode fornecer muito mais informação do que uma única seqüência. • Quando lidando com uma nova proteína, de função desconhecida, a presença de domínios similares a outros em proteínas conhecidas pode implicar em função ou estrutura semelhante.
Porque precisamos de alinhamentos múltiplos? • É sabido que a pressão seletiva resulta da necessidade de se conservar uma função. • Em proteínas, a manutenção da função requer uma estrutura 3D específica. Portanto, alinhamentos múltiplos de proteínas podem fornecer alguma informação sobre a estrutura 3D das mesmas.
Porque precisamos de alinhamentos múltiplos? • Para revelar os relacionamentos entre um grupo de seqüências (homologia). • Para caracterizar famílias protéicas – identificar regiões conservadas e determinar as regiões variáveis. • Regiões similares podem indicar funções similares (por exemplo, promotores no DNA).
Porque precisamos de alinhamentos múltiplos? • Planejar experimentos de mutagênese sítio-dirigida, desenhar primers e/ou sondas especiais. • Construir um perfil da família, o que possibilitará buscas mais avançadas, capazes de localizar membros mais distantes da mesma família.
Porque precisamos de alinhamentos múltiplos? • Alinhamentos múltiplos são utilizados por programas de modelagem protéica. • Podem ajudar na predição das estruturas secundária e terciária de novas seqüências. • Alinhamentos múltiplos servem de input para a construção de árvores filogenéticas.
Estratégia Alinhamento par-a-par Busca nos bancos de dados Alinhamento múltiplo
Estratégia Alinhamento múltiplo Modelagem por homologia Análise filogenética Buscas avançadas em bancos de dados: padrões, motivos, sítios
O desafio computacional dos alinhamentos múltiplos • Encontrar o alinhamento ótimo de um grupo de seqüências incluindo matches, mismatches e gaps é muito difícil. • Para alinhamentos par-a-par, métodos de programação dinâmica são utilizados (Needleman & Wunsch, 1970; Smith & Waterman, 1981), mas estes são inviáveis para alinhamentos múltiplos (exigem tempo de processamento muito longo, proporcional ao produto do tamanho das seqüências).
O desafio computacional dos alinhamentos múltiplos • Se alinhar 2 seqüências de 300 resíduos leva 1 segundo, alinhar 3 seqüências do mesmo tamanho levaria 300 segundos, e alinhar 10 seqüências levaria 300^8 segundos, o que é superior à idade do universo!
O desafio computacional dos alinhamentos múltiplos • As dificuldades de se alinhar um grupo de seqüências variam conforme o grau de similaridade entre as seqüências. • Um alto grau de variação entre as seqüências implica em um grande número de alinhamentos possíveis, o que torna muito difícil encontrar o alinhamento “ótimo”.
O desafio computacional dos alinhamentos múltiplos • Métodos aproximados são utilizados ao invés de métodos de programação dinâmica. • Outro desafio computacional é a inserção e pontuação de gaps nas seqüências alinhadas.
Métodos aproximados • Alinhamento global progressivo: rápido, requer pouca espaço de memória e oferece bom desempenho para seqüências homólogas relativamente bem conservadas.
Métodos aproximados • Alinhamento global baseado em blocos: as seqüências a serem comparadas devem compartilhar blocos (domínios) conservados, separados por regiões não conservadas contendo grandes indels.
Métodos aproximados • Alinhamento global baseado em motivos: as seqüências a serem comparadas devem compartilhar regiões similares sem, necessariamente, serem relacionadas globalmente.
Programas de alinhamento global progressivo • ClustalW • http://www.ebi.ac.uk/clustalw/ • T-Cofee • http://igs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/t_coffee_home_page.html
Programas de alinhamento global baseado em blocos • DIALIGN • http://bibiserv.techfak.uni-bielefeld.de/dialign/
Programas de alinhamento global baseado em motivos • BLOCKS • http://blocks.fhcrc.org/blocks/ • MEME • http://meme.sdsc.edu/meme/intro.html
Dicas na escolha de suas seqüências • Seqüências retiradas diretamente dos bancos de dados podem conter dados irrelevantes (vários genes, fragmentos de diferentes tamanhos). Cheque suas seqüências e use somente a parte relevante para o alinhamento. Edite e remova as outras partes antes do alinhamento. • Tente usar seqüências com aproximadamente o mesmo tamanho para o alinhamento.
Dicas na escolha de suas seqüências • De forma geral: • Quanto mais seqüências, melhor. • Não inclua seqüências muito similares (>80%). • Os sub-grupos devem ser alinhados separadamente, e somente um membro de cada sub-grupo deve ser incluído no alinhamento múltiplo final.
O que você necessita saber sobre os programas para a construção de alinhamentos múltiplos • Quase todos os programas irão alinhar quaisquer seqüências que o usuário fornecer como input. • Sempre retornarão um alinhamento, mesmo que as seqüências não sejam relacionadas entre si.
O que você necessita saber sobre os programas para a construção de alinhamentos múltiplos • A maioria dos programas irá inserir gaps. Entretanto, uma vez inseridos, eles estão lá para ficar. • Você deve checar como o programa trata a inclusão de gaps nos finais das seqüências.
Alinhamento global progressivo • O método mais comumente utilizado para a construção de alinhamentos múltiplos é o alinhamento global progressivo. • Como funciona?
ClustalW • O ClustalW pode criar alinhamentos múltiplos, editar alinhamentos existentes e criar árvores filogenéticas. • O alinhamento pode ser feito por dois métodos: • Lento e preciso • Rápido e aproximado
ClustalW • O seu algoritmo consiste em três etapas: • 1. Alinhamentos par-a-par são feitos entre todas as seqüências no grupo em estudo. Uma matriz de distâncias é construída com base em um esquema de pontuação. Ao calcular essa matriz, o programa leva em consideração a divergência entre as seqüências.
ClustalW • 2. Uma árvore “guia” (filogenética), que reflete as similaridades entre as seqüências, é construída a partir da matriz de distâncias, utilizando o método de neighbour-joining. Essa árvore-guia tem ramos de diferentes tamanhos. Seu tamanho é proporcional ao tempo de divergência estimado ao longo de cada ramo.
ClustalW • 3. O alinhamento progressivo das seqüências é feito, seguindo a ordem dos ramos na árvore-guia. As seqüências são alinhadas das extremidades até a raiz. Este alinhamento é feito de acordo com as relações filogenéticas encontradas na árvore-guia.