1 / 22

Predição de regiões codificantes

Curso de Introdução à Bioinformática. Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz. Predição de regiões codificantes. Marcos Catanho. Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz. Agenda. Métodos de predição Frames (GCG)

trevor
Download Presentation

Predição de regiões codificantes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Curso de Introdução à Bioinformática Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz Predição de regiões codificantes Marcos Catanho Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz

  2. Agenda • Métodos de predição • Frames (GCG) • ORF Finder (NCBI) • Testcode (GCG) • Third position GC bias (GCG) • Glimmer (TIGR) • Outras opções

  3. Métodos de predição: Identificação de sinais - ribosome binding sites - start/stop codons - RNA splice sites - Polyadenylation signals Desvios composicionais - periodic base composition bias - terceira posição do códon Codon bias (codon preference) Utilização de Markov Chains

  4. Frames (GCG) - detecta open reading frames através da identificação de start/stop códons.

  5. ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.

  6. Parêntesis – código genético http://www.ncbi.nlm.nih.gov/Taxonomy/

  7. ORF Finder (NCBI) - detecta open reading frames através da identificação de start/stop códons.

  8. Considerações a respeito do método: - difícil discriminação entre regiões codificantes e regiões não-codificantes. - é necessária a identificação de sinais (RBS, início de transcrição/tradução, terminação, limites éxon/íntron), para assinalar a sequência como sendo codificante. - existência de start códons alternativos. - em sequências eucarióticas o método pode perder muito em eficiência (éxons/íntrons).

  9. Testcode (GCG) -periodic base composition bias

  10. Considerações a respeito do método: - um dos primeiros a possuir bases estatísticas. - procura por “assimetrias” ao longo da molécula de DNA: 1o grupo: bases 1, 4, 7, ... 2o grupo: bases 2, 5, 8, ... 3o grupo: bases 3, 6, 9, ... - não define a fase de leitura nem a fita. - não determina de forma precisa a região codificante.

  11. Third position GC bias (GCG)

  12. Considerações a respeito do método: - funciona melhor em organismos com maior desvio composicional em seu genoma (alto/baixo) conteúdo GC. - difícil discriminação de falsos positivos e/ou falsos negativos. - proporciona melhores resultados quando usado em conjunto com outros métodos.

  13. Codon preference (GCG) -comparação com uma tabela de utilização de códons

  14. Parêntesis – tabela de utilização de códons

  15. Parêntesis – desvios na utilização de códons • -É fato que em todos os organismos estudados até o momento a utilização de códons sinônimos não é aleatória. • O desvio na utilização de códons pode resultar de diversos fatores, tais como:

  16. Parêntesis – desvios na utilização de códons • Conteúdo GC; • Eficiência de tradução (seleção traducional) (genes altamente expressos); • Desvios mutacionais (genes de baixa expressão); • Precisão na tradução (aminácidos funcionalmente importantes); • Outros.

  17. Parêntesis – banco de dados de utilização de códons http://www.kazusa.or.jp/codon/

  18. Considerações a respeito do método: - detecta melhor genes com forte preferência por determinados códons (em geral, genes altamente expressos - seleção traducional). - útil para a detecção de erros de seqüenciamento causando frameshifts.

  19. Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER - utiliza um método estatístico baseado em cadeias de Markov para distinguir regiões codificantes de não-codificantes. - traduzindo: para uma seqüência de DNA, uma cadeia de Markov modela a probabilidade de ocorrência de um determinado nucleotídeo, dado um determinado contexto (que é a sequência de bases imediatamente anterior a este nucleotídeo). - ou ainda: qual a probabilidade da ocorrência de um G depois de um A? Ou depois de um AG?

  20. Glimmer (TIGR) - Gene Locator and Interpolated Markov ModelER

  21. Considerações sobre o método: • somente para uso local. • - é o método de escolha para a análise de grandes segmentos de DNA. • - processamento automático de grande eficiência - minimiza a interferência humana. • - alta taxa de acertos: prediz corretamente ~ 99% dos genes, com relativamente poucos falsos positivos. • - pode ser utilizado (com modificações) para a predição de seqüências codificantes em genomas eucarióticos.

  22. Outras opções: • GeneMark (http://opal.biology.gatech.edu/GeneMark/) • muito semelhante ao Glimmer (mesmas caraterísticas). • pode ser usado localmente ou via web. • GENSCAN (http://genes.mit.edu/GENSCAN.html) • - pode ser aplicado apenas para alguns eucariotos (vertebrados, Arabidopsis e milho).

More Related