1.37k likes | 1.54k Views
BIOLOGIA/MEDICINA. A Revolução da Genômica/Bioinformática. A Verdadeira Revolução. Início do séc. 20: Mendel e as leis da hereditariedade. 1944: DNA como elemento carreador da informação genética (Avery) 1953: Watson/Crick e aestrutura do DNA.
E N D
BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática
A Verdadeira Revolução Início do séc. 20: Mendel e as leis da hereditariedade. 1944: DNA como elemento carreador da informação genética (Avery) 1953: Watson/Crick e aestrutura do DNA. Anos 70 e 80: Biologia Molecular/Biotecnologia Anos 90 e séc. 21: Genômica/Bioinformática
História da Biologia Molecular • 1951 Fred Sanger, Amino Acid Sequence of Insulin • 1953 Watson/Crick, Estrutura do DNA • 1957 Francis Crick, Central Dogma, DNA RNA Protein • 1960’s Nirenberg, Matthaei, The Genetic Code • 1967 Shapiro and Beckwith, First gene cloned, LacZ • 1972 Paul Berg, First recombinant DNA molecule • 1973 Cohen/Boyer, First recombinant organism • 1977 Maxam/Gilbert and Fred Sanger, DNA sequencing • 1977 Fred Sanger, Complete sequence of phage X174 • 1978 David Botstein, Restriction Fragment Length Polymorphisms (RFLP) • 1980 Kerry Mullis, PCR • 1983 Lee Hood, First Automated DNA Sequencer
Sequenciamento Automático Leroy Hood 30kb por corrida
376 Genomas Concluídos! 251 como rascunho! 342 em andamento 327 Bacterial,27 Archeal,22 Eukaryotic • 1995, Haemophilus influenzae • 1996, Methanococcus jannaschii • 1997, Saccharomyces cerevisiae • 1997, Escherichia coli • 1998, Caenorhabditis elegans • 2000, Drosophila melanogaster • 2000, Arabidopsis thaliana • 2001, Homo sapiens • 2002, Schizosaccharomyces pombe • 2002, Oryza sativa • 2002, Mus musculus • 2005, Pan troglodites http://www.ncbi.nlm.nih.gov 09/07/2006
Genoma Humano2001 • International Consortium • Grupos acadêmicos • Celera Genomics • Companhia Privada
A nova revolução da Genômica 454 SOLiD - ABI Solexa - Illumina ~03 GB de DNA por corrida ~120 MB de DNA por corrida ~01 GB de DNA por corrida 12KB/US$ 100KB/US$ 300KB/US$ Tecnologia de Capilar = 0.5KB/US$
Nova tecnologia • Dispensa clonagem dos fragmentos em sistemas bacterianos • Dispensa a preparação de DNA molde para sequenciamento • Reações feitas em paralelo em volume extremamente pequeno - nanotecnologia
Aplicações • Sequenciamento de Genomas • sequenciamento de novo • re-sequenciamento - variabilidade SNPs e mutações • Sequenciamento de Transcriptomas • variabilidade - splicing, poliadenilação • quantificação de expressão gênica
Projeto 454 Participantes: LICR-SP, LICR-NY, Venter Institute Objetivo: Sequenciamento extensivo dos genes expressos na linhagem celular HCC1954 (tumor de mama) buscando conhecer, com um único set de dados, alterações genéticas e epi-genéticas neste tipo de câncer. Sequenciador: 454
Fapesp/LICR Genoma Humano do Câncer Projeto 454 Venter/LICR # sequências 1.2 milhões 520 mil # sequenciadores 05 MegaBaces 01 454 # corridas ~15,000 01 Custo (US$)* 12 milhões 10 mil * Excluindo o preço dos aparelhos
Os sequenciadores de nova geraçãopromovem uma mudança no paradigma Geração de dados deixa de ser o fator limitante Com os bilhões de datapoints gerados em horas, o processamento e análise dos dados tornou-se o maior gargalo das pesquisas biomédicas.
Bioinformática • Computação • Matemática • Biologia
Bioinformática - História • 1970, Needleman/Wunch, Alinhamento Global. • 1972, Margaret Dayhoff, Matrizes de Comparação. • 1979, Walter Goad, GenBank. • 1981, Smith/Waterman, Alinhamento Local. • 1989, NHGRI, Projeto Genoma Humano. • 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST. • 1994, Eddy/Krogh/Durbin, Hidden Markov Models (HMMs).
Bioinformática - Importância • Poucas pessoas adequadamente treinadas em Biologia e Computação. • Biologia em larga-escala. Produção de dados em massa gera uma demanda para análises computacionais. • Economiza tempo e dinheiro.
Bioinformática • Desenvolvimento de ferramentas. • Forma de explorar novos dados. • Processamento de dados gerados por projetos em larga-escala. • Uma nova forma de se fazer ciência dirigida por hipóteses.
Bioinformática O Bioinformata O Usuário • Manipula a informação. • Desenvolve ferramentas • Bancos de dados locais. • Local. • Mta programação. • Habilidades de TI. • Recursos da Web. • Local ou remoto. • nada de programação. • pouca habilidade de TI.
Cinco websites que todos devem conhecer • NCBI (The National Center for Biotechnology Information; • http://www.ncbi.nlm.nih.gov/ • EBI (The European Bioinformatics Institute) • http://www.ebi.ac.uk/ • The UCSC Genome Browser • http://genome.ucsc.edu/ • SwissProt/ExPASy (Swiss Bioinformatics Resource) • http://expasy.cbr.nrc.ca/sprot/ • PDB (The Protein Databank) • http://www.rcsb.org/PDB/
NCBI (http://www.ncbi.nlm.nih.gov/) • Acesso aos bancos de dados via Entrez • Medline/OMIM • Genbank/Genpept/Structures • Servidor de BLAST • Todos os tipos de Blast • Portal do Genoma Humano • Muito, muito mais……..
EBI (http://www.ebi.ac.uk/) • Acesso a bancos de dados via SRS • EMBL, SwissProt, …… • Muitas outras ferramentas • ClustalW, DALI, …
UCSC Genome Browser (http://genome.ucsc.edu/) • Banco de dados e Browser para genomas de diferentes espécies • Humano, camundongo, rato, zebrafish, etc…. • Muitas outras ferramentas • SNPs, domínios prtéicos, genômica comparativa, etc….
SwissProt (http://www.expasy.ch/sprot/) • Checagem manual. • O número de entradas errôneas é bastante reduzido. • Cross-link extensivo com outros bancos • SwissProt é o ‘gold-standard’ em termos de bancos de dados e é o melhor lugar para se começar uma análise se vc procura info para uma ou poucas
Protein Data Bank – PDB (http://www.rcsb.org/pdb/) • Armazena a estrutura tri-dimensional para milhares de proteínas • Acesso a vários serviços relacionados a biologia estrutural
Bancos de Sequência Primários GenBank (USA) http://www.ncbi.nlm.nih.gov/Genbank EMBL (Europa) http://www.ebi.ac.uk/embl/ DDBJ (Japão) http://www.ddbj.nig.ac.jp/
Homologia - Ortologia - Paralogia
Dois conceitos importantes • Paralogia: O evento que originou às duas sequências é um evento de duplicação gênica! • Orthologia: O evento que deu origem às duas sequências é um evento de especiação! FUNÇÕES SIMILARES! FUNÇÕES IDÊNTICAS!
Como definir função? • Alinhamento de sequências • Motivos (padrões consensuais) • Blocos, perfis, etc.... • Hidden Markov Models - HMM
Similarity Searches on Sequence Databases, EMBnet Course, October 2003
Alinhamento 0 1 2 3 4 5 6 7 8 9 10 G A A - G G A T T A G G A T C G G A - - A G • Identidade - MATCH • Semelhança / divergência - MISMATCH • Lacunas - GAPS • Inserção/Deleção - INDELS
Alinhamento Qual é o melhor alinhamento ? Alinhamento 1: A – C – G G – A C T | | | - | | A T C G G A T – C T Alinhamento 2: A T C G G A T C T | | | | - | | A – C G G – A C T
Pontuação Esquema de pontuação match: +2 mismatch: +1 indel: –2 Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 – 8 = 3 Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 – 4 = 9 Escore final = soma dos escores para cada posição Favorece os matches, penaliza os gaps
Matriz de Substituição • Tabela de comparação • Reflete a probabilidade ou frequência de determinada substituição em sequências biologicamente relacionadas • p(A B) = p(B A) • Construídas pelo estudo do alinhamento de diversas sequências relacionadas • AA ou nucleotídeos
Percent Accepted Mutation (PAM - Dayhoff) • Margaret Dayhoff (1978) • Probabilidade de substituição de aa em alinhamentos globais de sequências homólogas • Cada matriz reflete as mutações entre sequências que divergiram por determinado período de tempo • Mutações aceitas => não afetam negativamente a viabilidade da proteína • Primeira matriz • 71 grupos de proteínas, 85% de similaridade • 1572 substitutições de aminoácidos • Expansão do número de proteínas => 1991 database
Matrizes PAM • Premissa => cada mutação é independente das mutações anteriores • Consequência => as substituições observadas em curtos períodos podem ser extrapoladas para longos períodos • PAM 1 => sequências com 1% ou menos de divergência =>1 mutação aceita a cada 100 aminoácidos • PAM N mutações = (PAM 1)N • PAM 250 => 250 mutações por 100 aa => 250% mutações em 2500 milhões anos • PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%