190 likes | 291 Views
Computational identification of promoters and first exons in the human genome. Ramana V Davuluri, Ivo Grosse & Michael Q. Zhang. Nature Genetics 29:412-417 2001. Identificar e caracterizar todos os genes do genoma humano. 3.300.000 kb: ~30.000 genes. Genscan, FGENES and MZEF. Draft.
E N D
Computational identification of promoters and first exons in the human genome Ramana V Davuluri, Ivo Grosse & Michael Q. Zhang Nature Genetics 29:412-417 2001 Identificar e caracterizar todos os genes do genoma humano 3.300.000 kb: ~30.000 genes Genscan, FGENES and MZEF
Draft 51.4 % Finished 47.1 % Total 98.5 % Sequencing Progress
exons introns Gene
Sinal de poliadenilação 1 2 3 Promotor AATAAA G A G A AG AG GT AG GT AG ATG TAA TAG TGA AATAAA ORESTES dbEST Gene glonina 5’m7G AAAAAAAAA 3’
Seqüência rica em GU Sinal de poliadenilação 5’ m7G AAUAAA GU 3’ endonuclease 5’ m7G AAUAAA 3’ Poli(A) polimerase 5’ m7G AAUAAA AAAAAAAA 3’ Cauda poli(A) Modificações químicas nas duas extremidades do RNAm Poliadenilação
Exon 1 Exon 2 Intron 10s a 10.000 nt A G C A GT AGT AG CCCCCC C TTTTTTT T G A N AG
Gene Sinal de poliadenilação 1 2 3 Promotor AATAAA G A G A AG AG GT AG GT AG ATG TAA TAG TGA
Exon 1 +1 G A AG AG GT AG GT ATG +1 ATG Exon parcialmente codificado Exon não codificado 40%
Computational identification of promoters and first exons in the human genome Ramana V Davuluri, Ivo Grosse & Michael Q. Zhang Nature Genetics 29:412-417 2001
Alinharam RNAm e 5’ UTR com • seqüências genômicas; • Recupera o primeiro exon com 500 bases • de cada lado; • Elimina a redundância e as seqs ambíguas. FEdb 2.139 Splice-donor Sites (GT) Para todo sítio GT, o programa calcula a probabilidade de ser um splice-donor site. P(donor site|GT) > 0.4 Promotor 500 pb 70 pb ATG GT GT 500 pb 1.500 pb 1.500 pb 500 pb P(promoter|window) > 0.4
Alinharam RNAm e 5’ UTR com • seqüências genômicas; • Recupera o primeiro exon com 500 bases • de cada lado; • Elimina a redundância e as seqs ambíguas. Para todo sítio GT, o programa calcula a probabilidade de ser um splice-donor site. P(donor site|GT) > 0.4 GT 1.500 pb ATG GT 500 pb Primeiro exon 500 pb 1.500 pb P(exon|all) > 0.5 FEdb 2.139 Splice-donor Sites (GT) Promotor P(promoter|window) > 0.4
FEdb 2.139 Resultados • Banco de dados de primeiro exon. Parcialmente codificado 1.315 (61%) 348 pb Não codificado 824 (39%) 151 pb
GC% GC% GC% GC% GC% GC% GC% GC% GC% GC% 201pb • Primeiro exon e ilhas CpG 500 pb 500 pb ATG GT CpG score = GC% / total window
Primeiro exon e ilhas CpG 14 3 6.5
0 -200 +1 Exon 1 Promotor 93,8 % 76,3 % • Primeiro exon e ilhas CpG
Procurando o primeiro exon e a região promotora Predizer o primeiro exon e a região Promotora usando diferentes funções discriminantes estruturada como uma árvore de decisão. FirstEF Modelos probabilísticos destinados a encontrar sítios de splicing donor e regiões promotoras relacionadas e não relacionadas com ilhas CpG. Para todo sitio de splicing (donor) e toda região promotora, o FirstEF decide se a região intermediária pode ser um primeiro exon baseado em um grupo de função quadrática discriminante.
Eficiência do FirstEF • Análise sistemática de validação. Cross-validation (FEdb)
Eficiência do FirstEF • O programa foi rodado com a seqüência completa do • Chr 21 e Chr 22.