300 likes | 394 Views
Análise Computacional de Seqüências Nucleotídicas e Protéicas. BLAST Antonio Basílio de Miranda 24/11/2004. BLAST – Basic Local Alignment and Search Tool. Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática
E N D
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004
BLAST – Basic Local Alignment and Search Tool • Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática • Busca seqüências armazenadas nos bancos de dados pela similaridade entre a estrutura primária da seqüência query e as armazenadas • Anotações (características) descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes • O maior problema é definir um “cut-off”, limite onde as similaridades encontradas entre a query e os hits não sejam mais significativos
BLAST – Basic Local Alignment and Search Tool • É um método heurístico para alinhamentos locais • Projetado especificamente para buscas em bancos de dados • Idéia básica: bons alinhamentos irão conter pequenos trechos de combinações iguais
BLAST • Existem vários “sabores” e tipos de BLAST: • Nucleotídeo • Proteína • Traduzido • Genomas
BLAST • Nucleotídeo: • Nucleotídeo-nucleotídeo (blastn) • Megablast • Megablast descontínuo • Busca por hits curtos e quase perfeitos • Busca em cromatogramas
BLAST • Proteína: • Proteína-proteína (blastp) • PHI-BLAST e PSI-BLAST (através da obtenção de perfis) • Busca por hits curtos e quase perfeitos • Busca no banco de dados de domínios conservados (rps-blast) (Smart, PFam e COG) • Busca pela arquitetura de domínios (cdart)
PHI-BLAST e PSI-BLAST • PHI-BLAST: Quais outras seqüências protéicas contém tanto a ocorrência do padrão P e são homólogas a query P na vizinhança das ocorrências dos padrões? • PSI-BLAST: Construção de uma matriz de valores posição-específica (position specific scoring matrix, PSSM)
BLAST • Traduzido: • query traduzida x banco de dados de proteínas (blastx) • query de proteína x banco de dados traduzido (tblastn) • query traduzida x banco de dados traduzido (tblastx)
BLAST • Genomas: • Galinha, vaca, porco, cachorro, ovelha, gato • Amostras ambientais • Homem, camundongo, rato • Fugu rubripes, zebrafish • Insetos, nematódeos, plantas, fungos, malária • Genomas microbianos, outros genomas eucarióticos
BLAST - algoritmo • 1. Filtrar as regiões de baixa complexidade • 2. Criar as query words (de comprimento 3 para sequências protéicas e 11 para DNA) através do uso de uma janela deslizante MEFPGLGSLGTSEPLPQFVDPALVSS MEF EFP FPG PGL GLG
BLAST - algoritmo • 3. Utilizando uma matriz de substituição (PAM, BLOSUM), contar todas as possíveis palavras de tamanho 3 ou 11 contra a query • 4. Selecionar um limite (neighborhood word score threshold - T) para manter as sequências mais significativas (normalmente umas 50 por query)
(Parênteses – matrizes de substituição) • O que é uma matriz de substituição? • É uma matriz representando todas as possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas • Esses valores são obtidos através da contagem dessas trocas tomando-se como base umdeterminado modelo evolutivo
BLAST - algoritmo • 5. Repetir os passos 3 e 4 para cada query word no passo 2 • 6. Organizar as palavras de alta pontuação em uma árvore de busca M E E P F G
BLAST - algoritmo • 7. Procurar em cada sequência no banco de dados uma combinação com uma query word de alta pontuação. Cada combinação será uma “semente” para um alinhamento sem gaps. • 8. Extensão das combinações • 8.1. BLAST original: extensão das combinações à esquerda e à direita da “semente” usando alinhamentos sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. Esta extensão é o chamado HSP (High Scoring Pair).
BLAST - algoritmo • 8.2. Atualmente: combinações ao longo da mesma diagonal (Dot plot) com uma distância A entre as duas são reunidas e a extensão se dá com a sequência maior. • 9. Utilizando uma contagem limite S, manter somente as combinações estendidas com score mínimo igual a S.
BLAST - algoritmo • 10. Determinar a significância estatística de cada combinação remanescente • 11. Tentar estender os HSPs de cada combinação remanescente • 12. Mostrar os alinhamentos locais (dea cordo com Smith-Waterman).
Resultado (BLASTN) • O output é dividido em cinco partes: • 1. Um header contendo a versão do BLAST, data da compilação, referência, RID, etc. • 2. Uma visão gráfica dos alinhamentos • 3. Um sumário com uma descrição em uma linha de cada hit • 4. Os alinhamentos • 5. Rodapé com a descrição detalhada dos parâmetros de busca empregados, o banco de dados, etc. • Existem várias opções de formatação dos resultados.
Resultado (links) • G: Gene • U: UniGene • E: GEO Profile (dados de expressão gênica e hibridização genômica obtidos por tecnologia high-throughput)
HSP – High Scoring Pairs • Segmentos onde o alinhamento possui alta qualidade