New Generation Sequencing and Bioinformatics in the Big Data Era

NewGenerationSequencingandBioinformatics in the Big Data Era Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

Em 2010, o universo digital somou 1,2 ZettaBytes. Em 2011 o número subiu para 1,8 ZettaBytes Estudo da IDC sobre o Universo Digital patrocinado pela EMC, maio de 2010 1 ZettaByte (ZB) = 1 Trilhão 1,000,000,000,000 GigaBytes (GB) 1,2 ZB = 2 pilhas de DVDs da terra à lua (384.404 Km) Introdução BiG DATA ERA D. ALLISON http://www.nature.com/nature/journal/v455/n7209/full/455028a.html

“Big Data” Era • “…information in our world is exploding. There are expected to be 1 trillion new devices connected to the Internet in the near future, which will help drive 44X digital data growth by the year 2020, 80 percent of which will be unstructured content and will require great effort to analyze. By Steve Mills IBM’s Senior Vice President & Group Executive, Software & Systems CISCO estimates that the monthly global internet traffic in the spring of 2010 was 21 exabytes. 1 ExaByte (EB) = 1,000,000,000 GigaBytes (GB)

“Big Data Era” na Ciência Researchers need to adapt their institutions and practices in response to torrents of new data — and need to complement smart science with smart searching. Editorial Setembro 2008 1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)

Ciclo do Conhecimento Gene Knock-outs Protein Assays Point mutations … Microarrays Genomics Meta-genomics HT proteomics … hypothesis-drivenscience (Kell DB et al., 2004) data-drivenscience “…computational methods of data analysis, which may be automated, provide the means of generating novel hypotheses, especially in the post-genomic era.” (Kell DB et al., 2004)

Inundação de Dados na Áreade Ciências Biológicas • genomascompletossequenciados; • dados de variações genômicas; • projetos de Meta-Genômica; • dados de transcritomas; • dados de proteínas; • dados de interações entre proteínas; • …

Explosão de Sequências

Preparação

Desafios • Pontos urgentes que devem ser enfrentados: • Transferência de dados, controle de acesso e gerenciamento; • Padronização dos formatos de dados; • Integração dos dados oriundos de múltiplas fontes. • Dados com características Multi-dimensionais e em um volume imenso; • Exemplo: Análise funcional de variações no DNA em múltiplas amostras em diferentes tipos de tumores utilizando dados de sequenciamento de nova geração; • Modelos preditivos para fenótipos complexos demandam computação intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede Bayesiana para representar um modelo de regulação gênica)

Integração dos Bancos de Dados Biológicos • Características • Grande volume de dados; • Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable ); • Não há padrão para os nomes dos objetos; • Ontologias (e.g. Gene Ontology) e organizações que regulam a nomenclatura (e.g. HUGO) • Não há padrão para acesso aos dados, cuja natureza é distribuída; • Utilização de formatação padrão para troca de informações (e.g. GFF) e webservices; • Definição variável para alguns conceitos; • e.g. gene • Dados altamente heterogêneos mas inter-relacionados; • Informação dinâmica e em constante atualização;

Soluções computacionais • Cloud-based computing; • Ambientes computacionais heterogêneos; • Integração de aceleradores especializados (GPUs); • Aumento do número de computadores; • Otimização de algoritmos;

Primeiros passos... • Compreensão da natureza dos dados, ou seja, da sua magnitude e complexidade, e dos recursos disponíveis (memória, espaço,...); • Compreensão dos algoritmos; • Compreensão das vantagens e desvantagens das arquiteturas disponíveis; • A decisão não é sempre óbvia e muitas vezes consiste em uma combinação delas;

Soluções no Brasil O EMU (Equipamento MultiUsuário) é uma plataforma de alta-performance para análises computacionais aplicadas à genômica e à transcriptômica. Financiamento: Programa Multiusuário da FAPESP de 2010, com uma contra-partida do Instituto Ludwig de Pesquisa sobre o Câncer.

Sequenciamento Por quê sequenciar ? • Motivação • Aplicações diversas: identificar sequências funcionais e caracterizar genomas ou transcriptomas; • Da Genômica Comparativa à Medicina Genômica; • Propósitos gerais; • Análogo às aplicações de um Computador Pessoal (PC)

Introdução revisão histórica

Marcos históricos 1909 1865 1977 1944 1953 1982 1986 1985 WilhelmJohannsen Gregor Johann Mendel Leis da hereditariedade Walter Gilbert Frederick Sanger Leroy Hood NCBI GENBANK Kary Mullis Experiments in PlantHybridization Termo Gene = unidade mendeliana da hereditariedade Sequenciador Semi-Automático e surgimento do primeiro sequenciador comercial (ABI) James Watson Francis Crick Maurice Wilkins Rosalind Franklin Oswald T. Avery Colin M. MacLeod, MaclynMcCarty DarrylLeja , NHGRI Banco de Dados de Sequências Biológicas Métodos para o sequenciamento de DNA PolymeraseChainReaction DNA = caracter hereditário Estrutura do DNA

Início do PGH • PGH - inícioem 1990 • Mapeamento detalhado do genoma humano • 5000 cientistas, de 250 diferentes laboratórios; • 15 anos. • 5 a 10 Bilhões de dólares (US$); • Otimismoexacerbado; • Para muitospesquisadores um projetoirrealizável; • Para outros a oportunidade de transformar a Genéticaem Big Science;

Projeto Genoma Humano • TheInternationalHumanGenomeSequencing Consortium • 13 anos (1990-2003) • U$3.000.000.000,00 (3 BILHÕES de DÓLARES!!!) • Avançosimediatosproporcionados • Identificação de ~25.000 genes (~20% material genético total); • Possibilitou a descoberta de ~1.800 genes relacionados a doenças, facilitando a identificação de outros genes; • Permitiu o desenvolvimento de mais de 1.000 testes genéticos; • Aomenos 350 produtosbiotecnológicosresultantesdesteconhecimentojáestãoem testes clínicos; • Desenvolvimentos de ferramentasparaanálisegenômica, inclusive de outrasespécies de interessebiomédico e econômico; • Promoveudiscussõeséticas, legais e implicaçõessociaisemtorno do assunto; • Consituição de uma base de conhecimento;

...no Brasil Publicação do rascunho do Genoma Humano Iniciativa pública Projeto Genoma Humano 1990 1999 2001 ... 1997 2000 2002 2003 Organization for Nucleotide Sequencingand Analysis Conclusão do ProjetoGenoma Humano 1ª experiência brasileira: Sequenciamento do Genoma da bactériaXylellafastidiosa

1946 Desenvolvimento dos Computadores ENIAC, o 1° computador eletrônico Gordon E. Moore John PresperEckert e John W. Mauchly Lei de Moore 1965 1981 1936 IBM PC (Personal Computer) Konrad Zuze Z1, o 1° computador eletro-mecânico

Lei de Moore

...e dos Sistemas Computacionais Linguagem Estatística R Ross Ihaka e Robert Gentleman UNICS , Ken Thompson, Dennis Ritchie e outros na Bell Labs. Linguagem de Programação C Dennis Ritchie 1969 1972 1993 1971 UNIX – 1ª Versão 1987 1991 Linguagem de Programação Perl GNU/Linux http://www.bioperl.org/wiki/How_Perl_saved_human_genome

Bioinformática • Bioinformática:Pesquisa, desenvolvimento, ouaplicação de ferramentascomputacionais e abordagensparaexpandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análiseouvisualizaçãodesses dados. • Computational Biology:O desenvolvimento e aplicação de métodosteóricos e analíticos, incluindomodelagemmatemática e aplicação de técnicas de simulaçõescomputacionaispara o estudo de sistemasbiológicos, sociaisoucomportamentais. BiomedicalInformationScienceandTechnologyInitiative Consortium (BISTI - NIH)

Repositórios de Dados Biológicos • 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb • 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information • 1997 – EMBL – European Molecular Biology Laboratory • 1986 – DDBJ – DNA Data Bank of Japan

International Nucleotide Sequence Database Colaboration 1982 606 seqüências 2.427 bases 2008 98.868.465 seqüências 99.116.431.942 bases

Era “Pós-Genoma” "O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos” (José Roberto Goldim, UFRGS) • Genômica Estrutural • Construção de mapas genéticos, físicos e de transcrição de um organismo. • Genômica Funcional • Caracterização das propriedades funcionais dos genes e determinação de Assinaturas Moleculares de Expressão Gênica.

Science 291:1221. 2001 Projetos “-omas”xPesquisa Clássica em Genética e Bioquímica Genômica Transcritômica Proteômica Epigenômica Metabolômica …

Genômica Funcional: Análise de Expressão Gênica Genômica Funcional = Métodos de obtenção de dados em larga escala + Métodos de Bioinformática • (Genome-wide expression “profiling”) Revolução dos projetos “-omas” Mayo Clin Proc. 2004 May;79(5):651-8

Biologia Sistêmica • Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema; "Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “ Leroy Hood

Últimos anos Sequenciamento do Genoma Diplóide de um único indivíduo (CraigVenter) The diploid genome sequence of an individual human. (Levy, S. et al. 2007) Legião de Sequenciadores ABI 3730 no JCVI 2005 2007 ... 2006 2008 2003 Genoma James D. Watson Sequenciamento com 454 Conclusão do ProjetoGenoma Humano 1000 Genomes Project Next-GenerationSequencingRevollution

Introdução NEW GENERATION SEQUENCINGAND APPLICATIONS

Nova Geração de Sequenciadores de DNA PLATÔ TECNOLOGIA ABI 3730xl Roche/454 FLX Illumina/SolexaGA ABI SOLiD • Aumento na quantidade de Dados • IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp) • Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de poucos dias); • Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb); • Redução do custo por base sequenciada;

Resumo das plataformas • http://www.illumina.com/ • http://www.my454.com/ • http://www.appliedbiosystems.com.br/

Trade-offs in Next Generation Sequencing technologies NHGRI CurrentTopics in GenomeAnalysis 2010 ElliottMargulies, Ph.D

Revisão: Métodos de sequenciamento de nova geração

NGS no mundo http://pathogenomics.bham.ac.uk/hts/

James Watson’s Genome

GenomaNeandertal 99,7% identidade humano moderno De 1% a 4% do genoma humano (2% de seus genes) provêm do homem de Neandertal

Detecção de Variantes Genômicas • Detecção de Variações (Padrão normal de variações) • Single Nucleotide Variants (SNVs) • Small Insertions/Deletions • Structural variants (Large Insertions/Deletions/Inversions) • Copy-Number Variants (CNVs)

Catálogo de MutaçõesSomáticas • Sequenciamento de diferentestipos de câncer • Cancer Driver mutations – mutaçõesresponsáveispelodesenvolvimento do câncer (Cancer Genes);

COSMIC • Catálogo de MutaçõesSomáticasemCâncer, resultadotambém de sequenciamentoscompletos de diversoscânceres;

Novas promessas • HeliScope • HelicosBioSciences • ION Torrent • AppliedBiosystems • PacBio RS • PacificBiosciences 2008 2010 2010

$1000 genome • Re-sequenciamentogenomahumanocompleto (3000 Mb) • 454 sequencing (average read length=300-400 bases): 10-fold coverage • Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage • Valoresnosúltimosanos • Julho 2010 (~U$31.125,00) • Julho 2011 (~U$10.500,00) National Human Genome Research Institute (NHGRI)

Produtividade [Stratton MR,et al. 2009]

Gordon Moore´s Genome

SequenceReadArchive I nternational N ucleotide S equence D atabase C ollaboration • SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra • ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/ • DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml “(…) In mid-September 2010, the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)” “We’re currently at 8.5 Terabases (Tb) of biological sequence under management. We’re growing by about 1 Tb/month.” NCBI’s staff scientist Martin Shumway in 2007 [Leinonen R et. al., 2011]

1000 Genomes • ConsórcioInternacional (2008) • Catálogocompleto e detalhado de Variantes Genômicas Humanas (SNPs e variações estruturais) • Projeto Genoma Humano • HapMap • Catálogo das variações genéticas mais comuns (SNPs c/ freq. > 5%) em diferentes populações humanas; • 2500 genomas de 25 populações • Mínimo de cobertura: • 3x - Genomacompleto; • 20x – exome capture; • Suportefinanceiro • Wellcome Trust Sanger Institute (Inglaterra); • Beijing Genomics Institute (China); • National Human Genome Research Institute (EUA);

Publicação Fase piloto

UK10K Genomes • Objetivo: identificação de variantes raras (freq. alélica abaixo de 0.1%) • Associação com fenótipos extremos em condições específicas (ex.: doenças relacionadas ao desenvolvimento neurológico e obesidade) • Sequenciamento • 4000 genomas (6x) • 6000 exomas

…e outros • i5K • 5000 genomas de insetos • importânciaespecialmentepara a agricultura; • Genome10K • 10000 genomas de vertebrados • diversidadegenética entre vertebrados; • 1001 Genomes • 1001 cepas de Arabdopsis thaliana • plantamodelo, base de estudos; • 1KP • 1000 genomas de plantas • desenvolvimentos de produtosbiotecnológicos;

New Generation Sequencing and Bioinformatics in the Big Data Era

New Generation Sequencing and Bioinformatics in the Big Data Era

Presentation Transcript

Next Generation Sequencing Data Analysis

Current Sequencing Technologies and Data Generation

High Throughput Sequencing: Microscope in the Big Data Era

THE BIG DATA ERA

ANALYTICS IN BIG DATA ERA

Bioinformatics Methods and Computer Programs for Next-Generation Sequencing Data Analysis

High Throughput Sequencing: Microscope in the Big Data Era

Drug Discovery in the Era of Big Data

Bioinformatics at Molecular Epidemiology - new tools for identifying indels in sequencing data

ANALYTICS IN BIG DATA ERA

Bioinformatics for next-generation DNA sequencing

THE BIG DATA ERA

The Era of Big Data

Current Sequencing Technologies and Data Generation

SAS and Big Data- The Big New Possibility

Introduction to next -generation sequencing technologies and bioinformatics

Next Generation Sequencing in Big Data

Audit Data Analysis in the Big Data Era

Next Generation Sequencing Data Analysis

Next Generation Sequencing and Bioinformatics Analysis Pipelines

Next Generation Sequencing and Bioinformatics Analysis Pipelines

Next Generation Sequencing and Bioinformatics Analysis Pipelines