Banco de Dados Biológicos

Banco de Dados Biológicos Marcílio C. P. de Souto DIMAp/UFRN

Banco de Dados (BD) Biológicos • Por que? • Disponibilizar dados biológicos para os cientistas • O máximo possível de um tipo particular de informação deveria estar disponível em um único lugar • Dados publicados podem ser difíceis de encontrar ou acessar • Coleta-los da literatura consume muito tempo • Disponibilizar dados em formato que possa ser lido por um computador

BD de Seqüências • Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos • Mais de 348 BD • BD de seqüências de nucleotídeos • EMBL (http://www.ebi.ac.uk/embl) • GenBank (http://www.ncbi.nlm.nih.gov/GenBank) • DDBJ (http://www.ddbj.nig.ac.jp) • UniGene (http://www.ncbi.nlm.nih.gov/UniGene) • BD de seqüências de proteínas • SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot) • PIR (http://pir.georgetown.edu) • BD de motivos • Pfam (http://www.sanger.ac.uk/Software/Pfam) • PROSITE (http://www.expansy.ch/prosite) • BD de estruturas macromoleculares 3D • PDB (http://www.rcsb.org/pdb)

Usos de BD de Seqüências • O que se pode descobrir sobre um gene por meio de uma busca a um BD? • Informação evolutiva: genes homólogos, freqüências dos alelos, ... • Informação genômica: localização no cromossomo, intros, UTRs, regiões reguladoras, ... • Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ... • Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ... • Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...

Busca de Informação • Busca de informação sobre genes e produtos gênicos • Gene e produtos gênicos são geralmente organizados por seqüência • Seqüências genômicas codificam todas características de um organismo • Produtos gênicos são descritos unicamente por sua seqüência • Seqüências similares entre biomoléculas indica tanto uma função similar quanto um relacionamento evolutivo • Seqüências de macromoléculas proporciona chaves biologicamente significativas para busca em BD

Busca em BD de Seqüências • Comece com uma seqüência, encontre informação sobre ela • Muitos tipos de seqüências de entrada • Pode ser uma seqüência de aminoácido ou de nucleotídeo • Genômica, cDNA/mRNA, proteína • Completa ou fragmentada • Matches exatos são raros • Em geral, o objetivo é recuperar um conjunto de seqüências similares

Busca em BD de Seqüências • O que queremos saber sobre a seqüência? • Ela é similar ao algum gene conhecido? Quão próximo é o melhor match? Significância? • O que sabemos sobre este gene? • Genômica (localização no cromossomo, regiões reguladoras, ...) • Estrutural (estrutura conhecida? ...) • Funcional (molecular, celular e doença) • Informação evolutiva • Este gene é encontrado em outros organismos? • Qual é sua árvore taxonômica?

NCBI e Entrez • A mais usada interface para a recuperação de informação de BD biológicos é o sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez) • NCBI (National Center for Biotechnology Information) • O sistema Entrez tira vantagem do fato que há relacionamentos lógicos pré-existentes entre as entradas indíviduas encontradas em diversos BD públicos • Por um exemplo, um artigo no PuBMed pode descrever o sequenciamento de um genecuja seqüência aparece no GenBank • A seqüência de nucleotídeos, por sua vez, pode codificar o produto de umaproteína cuja seqüência está armazenada em um BD de proteínas • A estrutura 3D desta proteína pode ser conhecida - as coordenadas da estrutura podem aparecer em um BD de estruturas • Finalmente,o gene pode ter sido mapeado para uma região específica do cromossomo - BD de mapeamento • A existência dessas conexões naturais, levou ao desenvolvimento de um método por meio do qual toda a informação poderia ser encontrada sem ter que visitar sequencialmente BD distintos

O Sistema Entrez (1/2) • Para ser claro, Entrez não é um BD • É a interface por meio da qual todos os seus BDs componentes podem ser acessados • O espaço de informação do Entrez inclui • Registros do PubMed • Dados sobre seqüências de nucleotídeos e proteínas • Informação sobre estruturas 3D • Informação de mapeamento • A vantagem do Entrez está no fato que toda esta informação pode ser acessada por meio de apenas uma query (consulta)

O Sistema Entrez (2/2)

BLAST: Busca com uma Seqüência • O objetivo é encontrar outras seqüências que são mais similares a query (consulta) do que seria esperado por ter acontecido ao acaso • Homologia • Pode começar com seqüências de nucleotídeos ou aminoácidos • Pode fazer a busca por nucleotídeos/aminoácidos

BLAST

Mais que NCBI • Links para anotações funcionais fora do NCBI • Gene Ontology - nomes padrões para: • Funções moleculares • Localização celular • Processos • Links para BD de enzimas • Funções da enzimas • Links para o BD KEGG (vias)

KEGG

Referências • A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a practical guide to the analysis of genes e proteins. John Wiley & Sons. 2001. • The Molecular Biology Database Collection: 2003 update -- Nucleic Acids Research 31(1):1-12

Busca em Banco de Dados Marcílio C. P. de Souto DIMAp/UFRN

Primeiro “Atrás da Tela” • Banco de dados são muito usados para buscas • Integridade, segurança, ... • Busca significa receber uma query (consulta) e recuperar algum entrada do banco de dados que match (case) com ela • Comparação inexata de seqüências (alinhamento) • Programação dinâmica e BLAST search • Eficiência é fundamental • Queremos encontrar coisas rápidas, independentemente de quão grande o banco de dados se torne

Alinhamento de Seqüências • Possibilitar ao pesquisador determinar se duas seqüências apresentam suficiente similaridade tal que um inferência sobre homologia pode ser justificada • Homologia: significa dizer que duas (ou mais) seqüências tem um ancestral comum • História evolutiva • Similaridade: é uma medida da qualidade do alinhamento entre duas seqüências, baseada em algum critério • Não se refere a nenhum processo histórico • Apenas uma comparação das seqüências com algum método • É uma afirmação logicamente mais fraca • Em bioinformática, esses dois termos são muitas vezes confundidos • A razão é provavelmente porque uma similaridade significativa é um forte argumento para homologia e, a partir disso, para a dedução de que as seqüências codificam um gene com uma função biológica similar

Bases Evolucionárias • Mutações • Os eventos mais simples que ocorrem durante o curso da evolução molecular são substituições de um nucleotídeo por outro e a deleção ou inserção de uma par de base • Quando uma alinhamento de seqüências refletem genuinamente a história evolutiva de dois genes ou proteínas • Resíduos que foram alinhados mas não são idênticos representaria uma substituição • Regiões onde os resíduos de uma seqüência não correspondem a nada na outra seria interpretado como ou uma inserção uma seqüência ou uma deleção na outra A L I G N M E N T | | | | | | | - L I G A M E N T

Relação entre Sequências

Similaridade • Similaridade pode ser definida contando posições que são idênticas entre duas seqüências • Gaps (inserções/deleções) podem ser importantes G A A T T C A G T T A | | | | | | | G G A T T C – G - — A

Substituições • Nem todo mismatch (substituições) são iguais • Alguns aminoácidos são mais substituível entre si • Serina e treonina são mais parecidos do que triptofan e alanina • Podemos adicionar um custo diferente para cada tipo de mismatch (substituição) • Em geral, não usamos custos diferentes para os mismatches no alinhamento de nucleotídeos • Nenhuma substituição, por si, é melhor do que outra

Gaps • Sem gaps, há N*M possíveis alinhamentos entre seqüências de comprimentos N e M • Uma vez gaps são permitidos, isto se torna um número muito grande • O número de possíveis alinhamentos torna-se exponencial no tamanho das seqüências • Logo, não podemos experimentar todos

Alinhamento Aleatórios • A introdução de gaps também pode levar a alinhamentos sem sentido S O M E T I M E S Q U I P S E N T I C E | | | | | | | | S - - E - – - - — Q U - - - E N - - C E • É necessário distinguir entre alinhamentos que ocorreram devidoa homologia daqueles que são esperados a acontecer ao acaso • Defina um esquema (função) de score(pontuação) que leve em consideração ambos mismatches e penalidades para gaps

Match Scores • Match scores são em geral calculadoscom base na freqüência de mutações particulares em seqüências muito similares

Alinhamento Global e Local (1/2) • Global • Seqüências são comparadas como um todo • Útil quando temos seqüências que diferem pouco entre si • Inclui gaps • Local • O alinhamento localiza fragmentos de seqüências que são mais similares • Algumas vezes não inclui gaps • Muitas proteínas não apresentam um padrão global de similaridade • Mosaico de domínios modulares • Alinhamento de seqüências de nucleotídeos de um mRNA processado (spliced) com sua seqüencia genômica (Exon/Intron)

Alinhamento Global e Local (2/2)

Score do Alinhamento • Um score (pontuação) do alinhamento é a soma de todos os match scores, com a penalidade subtraída para cada gap A B C D E F G | | | | A C C - — F G match gap score score 8 2 8 8 8 => 34 - (10+2) = 22

Métodos de Alinhamento de Seqüências • Dado um par de seqüências e função de score (pontuação), identifique o alinhamento que obteve o melhor score • Alinhamento ótimo • Lembre, há um número exponencial de alinhamentos possíveis • A maioria deles com scores muito ruins • Alinhamento de pares de seqüências • Matriz de pontos (dot matrix) • Programação dinâmica • Dicionário de palavras ou k-tuplas (BLAST)

Matriz de Pontos • Permite a inspeção visual de um possível alinhamento entre duas seqüências • Permite que repeats e inversões sejam detectadas • Permite a identificação de regiões auto-complementares (e.g., RNA com estrutura secundária) • O alinhamento não é produzido

A T G C G T C G T T A T C C G C G A T Exemplo • Seqüências: • ATGCGTCGTT • ATCCGCGAT • Passos • Organize as seqüências em uma matriz • Coloque um ponto em cada lugar que houver um match entre duas bases • Trechos diagonais (indicados por linhas) são áreas de alinhamento • Mais de um alinhamento pode surgir

Programação Dinâmica (PD) • Método computacional que calcula o melhor alinhamento possível entre sequências • Abordagem indutiva, em que são definidos os scores para as seqüências menores, e a partir dessas, novos scores são computados os scores de cadeias maiores • Sejam s e t duas seqüências, com |s|=m e |t|=n, construir uma matriz (m+1) x (n+1), em que M(i, j) contém a similaridade entre s[1..i] e t[1..j] • Algoritmo de Needleman-Wunch

Exemplo (1/12) Sequence 1: GAATTCAGTTA (m = 11) Sequence 2: GGATCGA (n = 7) Esquema de Pontuação (scoring): • S(aibj) = +2 if ai = bj (match score) • S(aibj) = -1 if ai  bj (mismatch score) • w = -2 (gap penalty) Pontuação Máxima na posição i,j da matriz: Mi,j = MAX[ Mi-1, j-1 + s(ai,bj) (match/mismatch), Mi,j-1 + w(gap na seqüência #1), Mi-1,j + w(gap na seqüência #2)]

Exemplo (2/12) • Inicialização • Crie uma matriz com m+1 colunas e n+1 linhas, em que m e n correspondem ao tamanho das seqüências a serem alinhadas • A primeira linha e a primeira coluna podem ser inicialmente preenchidas com 0

Exemplo (3/12) • Preenchimento da Matriz • M1,1 = MAX[M0,0 + 2, M1,0 - 2, M0,1 - 2] = MAX[2, -2, -2]

Exemplo (4/12) • Preenchimento da Matriz • M1,2 = MAX[M0,1 + 2, M1,1 - 2, M0,2 - 2] = MAX[0+2, 2-2, 0-2] = MAX[2, 0, -2]

Exemplo (5/12) • Preenchimento da Matriz • M1,3 = MAX[M0,2 - 1, M1,2 - 2, M0,3 - 2] = MAX[0-1, 2-2, 0-2] = MAX[-1, 0, -2]

Exemplo (6/12) • Preenchimento da Matriz • M32 = MAX[M21 - 1, M31 - 2, M22 - 2] = MAX[0-1, -1 - 2, 1-2] = MAX[-1, -3, -1]

Exemplo (7/12) • Preenchimento da Matriz • Dois caminhos diferentes para se obter o score máximo para célula M32

Exemplo (8/12) • Preenchimento da Matriz • Matriz Final

Exemplo (9/12) • Traceback A | A

Exemplo (10/12) • Traceback T C A G T T A | | | | T C – G - — A

Score do Alinhamento G A A T T C A G T T A | | | | | | G G A – T C – G - — A + - + - + + - + - - + 2 1 2 2 2 2 2 2 2 2 2 2 – 1 + 2 – 2 + 2 + 2 – 2 + 2 – 2 – 2 + 2 = 3

Significância de um Alinhamento • Teste de significância é um ramo da estatística que se preocupa com a avaliação da probabilidade que um resultado particular poderia ter acontecido ao acaso • Como podemos calcular a probabilidade de que um alinhamento aconteceu por acaso? • Com um modelo de evolução • Empiricamente, por meio do embaralhamento de nossas seqüências e o cálculo dos scores nessas seqüências aleatórias

Busca em BD por Similaridade (1/2) • Até agora o foco era sobre o alinhamento de pares específicos de seqüências • Porém, para uma seqüência nova determinada, geralmente não como saber qual seqüência (ou seqüências) é apropriada para a comparação • Busca em BD por similaridade nos permite determinar quais das várias seqüências são potencialmente relacionadas a uma seqüência particular de interesse • Este processo pode levar a descobertas inesperadas • Um dos primeiros resultados com esse processo venho com a descoberta de que o oncogene viral v-sis é uma forma modificada de um gene celular normal • Naquela época, as bases de dados de seqüências eram pequenos o suficiente tal que esse achado pode ser considerado um fato surpreendente • Hoje, porém, seria mais surpreendente fazer uma busca em um BD e não encontrar nenhum hit

Busca em BD por Similaridade (2/2) • A operação básica é sequencialmente alinhar uma seqüência query com cada seqüência subject no BD • Os resultados são apresentados como uma lista de ranks seguida por uma série de alinhamento individuais de seqüências, mais vários scores e estatísticas • ADICIONAR FIGURA

Métodos Heurísticos • Soluções de programação dinâmica para problemas de alinhamento são relativamente lentas • Não levam a buscas eficientes nos imensos BD de seqüências • Necessidade de uma técnica para fazer busca em grandes BD para encontrar seqüências que tenha um match inexato com a seqüência query • Soluções competidoras: FASTA & BLAST • Métodos heurísticos (aproximação) de programação dinâmica • Baseado na estratégia de quebrar uma seqüência em cadeias pequenas de letras consecutivas, chamadas de palavras • Idéia: alinhamento representando um relacionamento verdadeiro entre as seqüências conterá pelo menos uma palavra que é comum a ambas seqüências • Estas palavras hits podem ser identificadas rapidamente pre-indexando todas as palavras da query e então consultando o índece na medida que o BD é pecorrido • Programação dinâmica encontra relacionamentos em seqüências distantemente relacionada que aproximações não conseguem

BLAST • O BLAST é uma heurística para comparação local mais utilizada • Basic Local Aligment Search Tool (Altschull et al., 1990) • Há várias variantes do BLAST, dependendo do tipo da seqüência query (DNA ou proteínas) e do BD sendo consultado

Banco de Dados Biológicos