1 / 30

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Análise Computacional de Seqüências Nucleotídicas e Protéicas. BLAST Antonio Basílio de Miranda 24/11/2004. BLAST – Basic Local Alignment and Search Tool. Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática

Download Presentation

Análise Computacional de Seqüências Nucleotídicas e Protéicas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004

  2. BLAST – Basic Local Alignment and Search Tool • Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática • Busca seqüências armazenadas nos bancos de dados pela similaridade entre a estrutura primária da seqüência query e as armazenadas • Anotações (características) descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes • O maior problema é definir um “cut-off”, limite onde as similaridades encontradas entre a query e os hits não sejam mais significativos

  3. BLAST – Basic Local Alignment and Search Tool • É um método heurístico para alinhamentos locais • Projetado especificamente para buscas em bancos de dados • Idéia básica: bons alinhamentos irão conter pequenos trechos de combinações iguais

  4. BLAST • Existem vários “sabores” e tipos de BLAST: • Nucleotídeo • Proteína • Traduzido • Genomas

  5. BLAST • Nucleotídeo: • Nucleotídeo-nucleotídeo (blastn) • Megablast • Megablast descontínuo • Busca por hits curtos e quase perfeitos • Busca em cromatogramas

  6. BLAST • Proteína: • Proteína-proteína (blastp) • PHI-BLAST e PSI-BLAST (através da obtenção de perfis) • Busca por hits curtos e quase perfeitos • Busca no banco de dados de domínios conservados (rps-blast) (Smart, PFam e COG) • Busca pela arquitetura de domínios (cdart)

  7. PHI-BLAST e PSI-BLAST • PHI-BLAST: Quais outras seqüências protéicas contém tanto a ocorrência do padrão P e são homólogas a query P na vizinhança das ocorrências dos padrões? • PSI-BLAST: Construção de uma matriz de valores posição-específica (position specific scoring matrix, PSSM)

  8. BLAST • Traduzido: • query traduzida x banco de dados de proteínas (blastx) • query de proteína x banco de dados traduzido (tblastn) • query traduzida x banco de dados traduzido (tblastx)

  9. BLAST • Genomas: • Galinha, vaca, porco, cachorro, ovelha, gato • Amostras ambientais • Homem, camundongo, rato • Fugu rubripes, zebrafish • Insetos, nematódeos, plantas, fungos, malária • Genomas microbianos, outros genomas eucarióticos

  10. BLAST - algoritmo • 1. Filtrar as regiões de baixa complexidade • 2. Criar as query words (de comprimento 3 para sequências protéicas e 11 para DNA) através do uso de uma janela deslizante MEFPGLGSLGTSEPLPQFVDPALVSS MEF EFP FPG PGL GLG

  11. BLAST - algoritmo • 3. Utilizando uma matriz de substituição (PAM, BLOSUM), contar todas as possíveis palavras de tamanho 3 ou 11 contra a query • 4. Selecionar um limite (neighborhood word score threshold - T) para manter as sequências mais significativas (normalmente umas 50 por query)

  12. (Parênteses – matrizes de substituição) • O que é uma matriz de substituição? • É uma matriz representando todas as possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas • Esses valores são obtidos através da contagem dessas trocas tomando-se como base umdeterminado modelo evolutivo

  13. Parênteses – matrizes de substituição)

  14. BLAST - algoritmo • 5. Repetir os passos 3 e 4 para cada query word no passo 2 • 6. Organizar as palavras de alta pontuação em uma árvore de busca M E E P F G

  15. BLAST - algoritmo • 7. Procurar em cada sequência no banco de dados uma combinação com uma query word de alta pontuação. Cada combinação será uma “semente” para um alinhamento sem gaps. • 8. Extensão das combinações • 8.1. BLAST original: extensão das combinações à esquerda e à direita da “semente” usando alinhamentos sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. Esta extensão é o chamado HSP (High Scoring Pair).

  16. BLAST - algoritmo • 8.2. Atualmente: combinações ao longo da mesma diagonal (Dot plot) com uma distância A entre as duas são reunidas e a extensão se dá com a sequência maior. • 9. Utilizando uma contagem limite S, manter somente as combinações estendidas com score mínimo igual a S.

  17. BLAST - algoritmo • 10. Determinar a significância estatística de cada combinação remanescente • 11. Tentar estender os HSPs de cada combinação remanescente • 12. Mostrar os alinhamentos locais (dea cordo com Smith-Waterman).

  18. (Parênteses – matrizes de homologia)

  19. Resultado (BLASTN)

  20. Resultado (formatação)

  21. Resultado (BLASTN) • O output é dividido em cinco partes: • 1. Um header contendo a versão do BLAST, data da compilação, referência, RID, etc. • 2. Uma visão gráfica dos alinhamentos • 3. Um sumário com uma descrição em uma linha de cada hit • 4. Os alinhamentos • 5. Rodapé com a descrição detalhada dos parâmetros de busca empregados, o banco de dados, etc. • Existem várias opções de formatação dos resultados.

  22. Resultado (header)

  23. Resultado (graphical overview)

  24. Resultado (one-line descriptions)

  25. Resultado (links) • G: Gene • U: UniGene • E: GEO Profile (dados de expressão gênica e hibridização genômica obtidos por tecnologia high-throughput)

  26. Resultado (alignments)

  27. HSP – High Scoring Pairs • Segmentos onde o alinhamento possui alta qualidade

  28. HSPs

  29. Resultado (footer)

  30. CDART

More Related