290 likes | 379 Views
Uso da b i o i nformática na análise genômica. ATCTCGTAGCT. ATCTCGTAGCT A. ATCTCGTAGCT. ATCTCGTAGCTA G. ATCTCGTAGCT. ATCTCGTAGCTAG C. ATCTCGTAGCT. ATCTCGTAGCTAGC T. ATCTCGTAGCT. ATCTCGTAGCTAGCT A. ATCTCGTAGCT. ATCTCGTAGCTAGCTA C. ATCTCGTAGCT. ATCTCGTAGCTAGCTAC G. ATCTCGTAGCT.
E N D
ATCTCGTAGCT ATCTCGTAGCTA ATCTCGTAGCT ATCTCGTAGCTAG ATCTCGTAGCT ATCTCGTAGCTAGC ATCTCGTAGCT ATCTCGTAGCTAGCT ATCTCGTAGCT ATCTCGTAGCTAGCTA ATCTCGTAGCT ATCTCGTAGCTAGCTAC ATCTCGTAGCT ATCTCGTAGCTAGCTACG ATCTCGTAGCT ATCTCGTAGCTAGCTACGA ATCTCGTAGCT ATCTCGTAGCTAGCTACGAC ATCTCGTAGCT ATCTCGTAGCTAGCTACGACG ATCTCGTAGCT ATCTCGTAGCTAGCTACGACGT ATCTCGTAGCT ATCTCGTAGCTAGCTACGACGTC ATCTCGTAGCT ATCTCGTAGCTAGCTACGACGTCT ATCTCGTAGCT ATCTCGTAGCTAGCTACGACGTCTA A G C T A C G A C G T C T A TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG
Start End
30 20 10 Processamento de seqüências cromatograma acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc • O programa Phred lê o cromatograma e nomeia as bases • Cada base tem uma chance de erro de sua nomeação (10% = 0,1) • A escala de Phred é semelhante à de pH multiplicado por 10: • - chance de erro de 0,001 = 10-3 = Phred 30 • A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)
T C A G BIOINFORMÁTICA UFMG LCC-CENAPAD In the Pursuit of Optimal Sequence Trimming Parameters for EST Projects Fabiano C. Peixoto & J. Miguel Ortega
50 40 30 20 10 0 • Noticed: • BLAST results • Phred 15 • Too much trimming
.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga gcggagctaaagtgacgggggcgcca Phred 15 Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979 Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588 ||||||||||||||||| || |||||||||||||||||| |||||||||||||||||||| Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919 Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648 |||||||||||||| |||||||||| |||| ||||||||||| ||||||||||||||||| Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859 Query: 649 ccaggcttgatgataccagtttcaacgc 676 |||||||||||||||||||||||||||| Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831
Sequences: • pUC18 plasmidial vector (published sequence) • Sequence reaction: • Single pool - 3 plates (96 samples) • MegaBACE sequencer • 3 reads for each plate, esd processing - 846 reads • Processing: • BLAST (MegaBLAST, as in UniGene) • Phred • trim: a chromatogram analyzer • trim_alt: trim_cutoff parameter 1% up to 25% Experimental approach
16% 17% Additional bases Trim_alt sequence BLAST gaps/missmatches (% of bases) 3%
Crescimento do GenBank Seqüências 16.000.000 15 milhões 14.000.000 24h 12.000.000 10.000.000 Europeu Japonês 8.000.000 6.000.000 4.000.000 2.000.000 606 0 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Ano
Seqüencias do DNA (genoma) Seqüências do mRNA (genes expressos) • Repetição calculada • draft = 5x • finished = 10x Amostragem tecidos momentos Genoma pequeno (seqüenciador grande) Eucariotos mRNA TR cDNA
Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma[otorrin... e ...damonh...] • EST (Etiqueta de Seqüência Expressa) • seqüenciamento único de cada cDNA • extremidades 5’ ou 3’ • ORESTES (ESTs ricas em ORFs) • seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico • prevalece o centro do cDNA (cds)
Um mRNA & suas ESTs (A)200 (A)200 mRNA cDNA (fita +) ATG AUG (A)18 ATCATGACTTACGGGCGCGCGAT AAATTTATTATCC (T)18 5’EST cDNA (fita -) 3’EST mRNA cDNA (fita +) AUG (A)18 GGCGCGCGATATCC AAATTTATTATCCATCTACG (T)18 5’EST cDNA (fita -) 3’EST
PCR inespecífico & seu ORESTES (A)200 amplicon (fita +) amplicon (fita -) PCR (60ºC) Iniciador (60ºC 37ºC) +ORESTES (outros iniciadores) mRNA amplicon (fita +) AUG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC AGATCGATCATGACTTACGGGCGCGCGATATCG ORESTES cDNA (fita -)
250 200 150 100
O formato FASTA, o mais simples, é anotado >Gene5 EST com homologia... ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGCTAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide
Alinhador local • Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua. • Fragmenta sua seqüência e procura homologia no banco de dados. • Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor. • É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo
Alinhamento local • O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína • Se não fosse assim, não teria sentido usar...
Programas BLAST & Bancos • Há vários Programas BLAST úteis • Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx) • Outros são usados quando a sua seqüência é de aminoácidos (BLASTp) • E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...) • Ou usa-se limites [organism]
BLASTn e BLASTx • A EST identifica o gene homólogo: BLASTn • A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx • BLASTx: a EST traduzida em seis proteínas • 1 existe, 5 não... • O mundo Blast é assim
tBLASTx • tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6 possibilidades, exatamente como BLASTx • Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira • Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não! • Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana
Aglomerados ou Clusters • Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) • Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes! • E quantos dos genes foram detectados • Usa-se também para validar bibliotecas
Programas para aglomerar • Icatools • Phrap • Cap3, Cap4 • Swat • BLAST • MegaBLAST Um aglomerado = Um gene
Qualidade das bibliotecas(100 primeiras ESTs) Boa biblioteca ? Número de seqüências 1 2 3 4 5 7 9 11 Freqüência em que uma EST foi amostrada
UniGene • Organização das sequências do GenBank em um conjunto de aglomerados • Cada aglomerado do UniGene contém as sequências que representam um gene único • E também informações relacionadas, como em que tecidos o gene é expresso, etc. • E também onde está mapeado
MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar