400 likes | 547 Views
Análise de gen omas e transcript omas. Prof. Dr. Francisco Prosdocimi. As novas ciências “ÔMICAS”. Genoma Transcriptoma Proteoma Metaboloma Fenoma, Lipidoma, Glicoma, Interactoma, Spliceoma, Kinoma, etc. Genomas e transcriptomas. O genoma é único
E N D
Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi
As novas ciências “ÔMICAS” • Genoma • Transcriptoma • Proteoma • Metaboloma • Fenoma, Lipidoma, Glicoma, Interactoma, Spliceoma, Kinoma, etc.
Genomas e transcriptomas • O genoma é único • O transcriptoma modifica-se espaço-temporalmente • Quais genes estão ativos num determinado instante e condição? • Como isso influencia a adaptação da célula ao meio? • Proteoma
Montando o “genoma da fábula” • Abaixo temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim como um genoma, dividida em partes. Monte as partes e produza a seqüência completa da fábula. > Frase 1 edoria e calor que fazem os seres humanos - "mas eu não". MORAL DA HISTÓRIA: NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO. > Frase 2 ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabed > Frase 3 Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo, ela não pôde resistir e exclamou: "Mas, com > Frase 4 dade" - respondeu então a outra, cheia daquela compreensão, sabedoria e calor que fazem os seres humanos - "mas eu n
Montagem de genomas Prof. Dr. Francisco Prosdocimi
O problema da montagem • Genomas bacterianos normalmente têm o tamanho medido em dezenas a centenas de quilobases (kb) • Genomas eucarióticos têm o genoma medido em Megabases (Mb) ou gigabases (Gb) • O genoma humano tem 3,1 Gb • Através do método de Sanger normalmente produz-se sequências de 800bp • Como montar um genoma?
Montagem de genomas numa casca de noz • A abordagem shotgun • Parte-se o DNA em pedacinhos • Corre-se um gel • Escolhe-se o tamanho dos fragmentos a trabalhar • Pedacinhos são clonados em vetores (montagem da biblioteca genômica) • Sequenciamento com primers do vetor • Monta-se a sequência por sobreposição
Montagem da Biblioteca Genômica • Fragmentação do DNA • Enzimas de restrição • Sonicação • Calor • Digestão do vetor • Ligação para a produção da molécula recombinante • Inserção em bactéria
Como sequenciar o que não se sabe o que é? • Para sequenciarmos no método de Sanger, precisamos utilizar um primer complementar à extremidade 5’ do que desejamos sequenciar • Vetor de sequenciamento • Primer UniversalForward e Reverse • Sequenciamento do inserto desconhecido
Análise dos Sequencing Reads • Leituras do sequenciamento (cada uma das sequências produzidas) • Tipos de Reads que podemos encontrar • Vetor + Inserto • Vetor + Inserto + Vetor • Vetor • O vetor não representa nosso genoma de estudo, portanto, sua sequência deve sermascarada
Possibilidades (teóricas) de mascaramento > Sequencia originalATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (1)ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (2)XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (3)XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX > Sequencia mascarada (4)ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX > Sequencia mascarada (5)XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Reads limpas • O programa Cross_match compara as sequências de DNA e mascara as sequências do vetor • Só temos agora sequência do organismo que estudamos • Alinhamento de sequências (bioinformática) • Sobreposição das sequências LINUX prompt $> cross_match reads.fasta vector.fastaAligning vector and read sequencesMasking vector regions $> more reads.fasta.cross_match> Read1XXXXXXXXXXACTAGACCCTATGAGGACATACATAGGACACAGAGATATATCCCGGCGCGTTTCATCTCGTACAGTTACCCCTTCAGCAGCACTCTCTGCACGATCGTCTACGXXXXXXXXXXXXXXXX
Sequence clustering • Cálculo da pontuação de sobreposição • Match / Mismatch / Gap scores • Minmatch (14) / Minscore (30)
Montagem de contigs • Reads alinhados • Programa cria sequências consenso (contigs) • CAP3, Phrap, TIGR Assembler, Celera Assembler
Genome Contig Problemas de montagem • E se o genoma contiver muitas sequências repetitivas? • O clustering vai reunir partes do genoma que não são contíguas • Análise do conteúdo de repetições de um genoma deve ser feito antes da montagem • Deve-se mascarar as repetições e montar apenas as partes do genoma sem repetições Sequencing reads Região repetitiva: alta cobertura de readsAlinhamento com regiões doutras partes do genoma
Reconstrução do genoma • Contigs + gaps • Certas regiões do DNA são difíceis de serem clonadas • Clonagem de fragmentosé estatística • Não estão presentes na biblioteca de DNA • Portanto, não são sequenciadas
Genome finishing • Primer walking consiste numa técnica de fechamento de genomas • Primers são criados para a realização de uma PCR que produzirá a sequência dos gaps • E se a sequência for muito grande? • Grande parte dos genomas publicados contêm regiões de gap
Genomas eucarióticos • Genomas enormes, nível de Mb ou Gb • Por vezes decide-se realizar uma abordagem hierárquica para o sequenciamento • Montagem de BACs – BAC to BAC sequencing
Mated-pair sequencing • Não se sequencia o inserto inteiro • Sequenciamento das extremidades do inserto • Montagem das sequências das extremidades • Clonagem de insertos com tamanhos variados (em diferentes tipos de vetores)
Gaps reais e virtuais • Gaps virtuais • Conhece-se o vetor que contém os mated-pairs • Sabe-se o tamanho ao qual ele corresponde (tamanho do inserto) • Shotgun do vetor em questão • Gaps reais • Não se conhece nada sobre este gap • Pode ter qualquer tamanho • Difícil solução
Genome coverage • Cobertura do genoma • Antes de tentarmos montar um genoma, precisamos ter uma quantidade de bases cerca de 8x maior do que o genoma • Garante que haverão poucos gaps reais • Genoma Humano público (2001): 2,9X coverage • Celera: 5,1X coverage Quanto maior a cobertura, menor o número de contigs (significando que as moléculas foram montadas por completo)
Passos para a montagem • Produção de sequencing reads até 8x o tamanho do genoma • Montagem dos contigs • Identificação de gaps reais e virtuais • Fechamento de gaps • Publicação do genoma
Montagem de transcriptomas Prof. Dr. Francisco Prosdocimi
Sequenciando ESTs • Expressed Sequence Tags • Etiquetas de sequências expressas • Amplificação dos genes a partir de primers do vetor de clonagem • Pode-se produzir ESTs 3’ ou 5’ • A EST 3’ está ancorada ao poli-A • O conteúdo da extremidade 5’ da EST, no entanto, varia devido: • Tamanho do mRNA • Tamanho do inserto clonado • Tamanho amplificado pela transcriptase reversa • Formas de Splicing do gene
Características das ESTs • Representam o pool de mRNAs • Possuem de 150 a ~1000 nucleotídeosEtiquetas de seqüências gênicas • Cada clone é seqüenciado uma única vez • Apresentam redundância • Permitem a identificação dos genes mais expressos em diferentes fases/tecidos • Permitem a identificação de splicing alternativo
Montagem dos genes • Contigs • Cada contig representa um gene completo • A cobertura do contig depende da expressão de cada gene • Genes muito expressos são mais vistos • Genes singlets • Menor evidência • Quantidade de ESTs sequenciadas e saturação da biblioteca • Sequências únicas • Cada uma é um gene • Sequências quiméricas :. Diminui a redundância;:. Aumenta o tamanho;:. Aumenta a qualidade.
Sequence clustering • Cálculo da pontuação de sobreposição • Match / Mismatch / Gap scores • Minmatch (14) / Minscore (30) Déja vu?
Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma[otorrin... e ...damonh...] • EST (Etiqueta de Seqüência Expressa) • seqüenciamento único de cada cDNA • extremidades 5’ ou 3’ • ORESTES (ESTs ricas em ORFs) • seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico • prevalece o centro do cDNA (cds)
Um mRNA & suas ESTs (A)200 (A)200 mRNA cDNA (fita +) ATG AUG (A)18 ATCATGACTTACGGGCGCGCGAT AAATTTATTATCC (T)18 5’EST cDNA (fita -) 3’EST mRNA cDNA (fita +) AUG (A)18 GGCGCGCGATATCC AAATTTATTATCCATCTACG (T)18 5’EST cDNA (fita -) 3’EST
PCR inespecífico & seu ORESTES (A)200 amplicon (fita +) amplicon (fita -) PCR (60ºC) Iniciador (60ºC 37ºC) +ORESTES (outros iniciadores) mRNA amplicon (fita +) AUG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC AGATCGATCATGACTTACGGGCGCGCGATATCG ORESTES cDNA (fita -)
Epílogo • Sabemos agora montar os genomas e os transcriptomas • E daí? • Número de genes (introns e éxons), elementos regulatórios, tamanho em pares de bases • Fizemos uma análise quantitativa e partiremos agora para uma análise qualitativa dos genes presentes • Quais são? O que fazem? • O que um organismo pode fazer dado que tem os genes que tem? • A análise genômica é uma análise de como pode funcionar o metabolismo de um organismo
Outras análises transcriptômicas Prof. Dr. Francisco Prosdocimi
SAGE • Serial Analysis of gene expression • Utilização de enzima de restrição do tipo III (corta upstream ao sítio de reconhecimento) (NlaIII) • Produção e sequenciamento de concatâmeros
Bioinformática SAGE • Extração e contagem das tags • Algus transcritos não geram tags com certa enzima • Tags possuem 10bp ou 17bp (+4 restr. Site) • Mapeamento de tags a genes usando alinhamento de sequências (1 to N, N to 1) • Tags não unívocas; repeat regions • Erros de sequenciamento atrapalham a análise >SAGE-WT1-A0001-A01.abd 1047 ABIGGCAGTGAATTGTAATACGACTCACTATAGGGCGAATTGGGCCCTCTAATGCATGTTGACGTGCACTTCCGTAGCCTCATGTTTTATGGAATCACCTATTATGCCATGACTTTTTCAAAACTAGGCTGTGCCATGTTTACACAGTATGCACACATCTTCCATGGATGTGGACAGAAAATCCTCCAACATGATGGCAA A tag em azul deverá ser a o complemento reverso da sequência. Short SAGE: TagFreq MappedGenes GCAGACCATA 1451 AB666788, U18897 AACAGTTCCA 931 NM_789654 GCCAACTCGG 2 NM_123587 CGTGCGGATT 1 NM_123587, Y15324, P67473, MB12983
Microarray • Análise comparativa da expressão gênica em high-throughput