220 likes | 288 Views
Curso de Introdução à Bioinformática. Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz. Predição de regiões codificantes. Marcos Catanho. Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz. Agenda. Métodos de predição Frames (GCG)
E N D
Curso de Introdução à Bioinformática Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz Predição de regiões codificantes Marcos Catanho Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz
Agenda • Métodos de predição • Frames (GCG) • ORF Finder (NCBI) • Testcode (GCG) • Third position GC bias (GCG) • Glimmer (TIGR) • Outras opções
Métodos de predição: Identificação de sinais - ribosome binding sites - start/stop codons - RNA splice sites - Polyadenylation signals Desvios composicionais - periodic base composition bias - terceira posição do códon Codon bias (codon preference) Utilização de Markov Chains
Frames (GCG) - detecta open reading frames através da identificação de start/stop códons.
ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.
Parêntesis – código genético http://www.ncbi.nlm.nih.gov/Taxonomy/
ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.
Considerações a respeito do método: - difícil discriminação entre regiões codificantes e regiões não-codificantes. - é necessária a identificação de sinais (RBS, início de transcrição/tradução, terminação, limites éxon/íntron), para assinalar a sequência como sendo codificante. - existência de start códons alternativos. - em sequências eucarióticas o método pode perder muito em eficiência (éxons/íntrons).
Considerações a respeito do método: - um dos primeiros a possuir bases estatísticas. - procura por “assimetrias” ao longo da molécula de DNA: 1o grupo: bases 1, 4, 7, ... 2o grupo: bases 2, 5, 8, ... 3o grupo: bases 3, 6, 9, ... - não define a fase de leitura nem a fita. - não determina de forma precisa a região codificante.
Considerações a respeito do método: - funciona melhor em organismos com maior desvio composicional em seu genoma (alto/baixo) conteúdo GC. - difícil discriminação de falsos positivos e/ou falsos negativos. - proporciona melhores resultados quando usado em conjunto com outros métodos.
Codon preference (GCG) -comparação com uma tabela de utilização de códons
Parêntesis – desvios na utilização de códons • -É fato que em todos os organismos estudados até o momento a utilização de códons sinônimos não é aleatória. • O desvio na utilização de códons pode resultar de diversos fatores, tais como:
Parêntesis – desvios na utilização de códons • Conteúdo GC; • Eficiência de tradução (seleção traducional) (genes altamente expressos); • Desvios mutacionais (genes de baixa expressão); • Precisão na tradução (aminácidos funcionalmente importantes); • Outros.
Parêntesis – banco de dados de utilização de códons http://www.kazusa.or.jp/codon/
Considerações a respeito do método: - detecta melhor genes com forte preferência por determinados códons (em geral, genes altamente expressos - seleção traducional). - útil para a detecção de erros de seqüenciamento causando frameshifts.
Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER - utiliza um método estatístico baseado em cadeias de Markov para distinguir regiões codificantes de não-codificantes. - traduzindo: para uma seqüência de DNA, uma cadeia de Markov modela a probabilidade de ocorrência de um determinado nucleotídeo, dado um determinado contexto (que é a sequência de bases imediatamente anterior a este nucleotídeo). - ou ainda: qual a probabilidade da ocorrência de um G depois de um A? Ou depois de um AG?
Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER
Considerações sobre o método: • somente para uso local. • - é o método de escolha para a análise de grandes segmentos de DNA. • - processamento automático de grande eficiência - minimiza a interferência humana. • - alta taxa de acertos: prediz corretamente ~ 99% dos genes, com relativamente poucos falsos positivos. • - pode ser utilizado (com modificações) para a predição de seqüências codificantes em genomas eucarióticos.
Outras opções: • GeneMark (http://opal.biology.gatech.edu/GeneMark/) • muito semelhante ao Glimmer (mesmas caraterísticas). • pode ser usado localmente ou via web. • GENSCAN (http://genes.mit.edu/GENSCAN.html) • - pode ser aplicado apenas para alguns eucariotos (vertebrados, Arabidopsis e milho).