380 likes | 562 Views
Genómica. Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013. Sumário. 3. Montagem de genomas Montagem hierárquica Montagem de genomas completos Montagem de genomas com base em modelos Problemas associados à montagem dos genomas
E N D
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013
Sumário 3. Montagem de genomas • Montagem hierárquica • Montagem de genomas completos • Montagem de genomas com base em modelos • Problemas associados à montagem dos genomas • Controlo de qualidade Genómica 12-13 MJC
Montagem de genomas • Após a sequenciação temos fragmentos (de tamanhos que vão de 1000 a 40 pbs) que é preciso reordenar na sequência original. Sobreposições em média de duas centenas de pares de bases. Equivale a ter um puzzle de 30 milhões de peças Aumenta o número de peças para 2-3 triliões. Genómica 12-13 MJC
Algumas das peças… • Faltam • Problemas na construção das bibliotecas • Problemas com a amplificação por PCR • Têm erros • Zonas repetitivas • Erros no PCR Aumentamos o nº de vezes que cada peça é sequenciada! Entre 8 e 100 vezes Genómica 12-13 MJC
A sequência (read) ideal • É longa • Não tem erros (tem bons algoritmos de “base calling”). Genómica 12-13 MJC
Podemos considerar 2 tipos • Única (single read) • Resulta da sequenciação do fragmento em si. • Emparelhada (pairedread) • Nestas leituras eu sei a sequência das pontas e a que distância estão uma da outra. Genómica 12-13 MJC
Tendo as sequências o desafio é ordená-las Genómica 12-13 MJC
A forma como a montagem é feita • Depende de haver ou não um genoma de referência: • Se há usa-se como modelo • Se não há deve usar-se outras informações como informações do exoma por exemplo. Genómica 12-13 MJC
Alguns algoritmos de montagem Genómica 12-13 MJC
Problemas na montagem de short reads • E as que não “encaixam”? • Sequencias repetidas no genomade referência? • Errosd de sequenciação • Balanço entre encontrar o emparelhamento e gerar o mapa? • É assim tão importante que encaixem todas as reads? • A capacidade/ resultados dependem não só do algoritmo usado como dos parâmetros descritos para cada algoritmo. Genómica 12-13 MJC
Quando a montagem é de novo Genómica 12-13 MJC
Montagem hierárquica ou de clones Genómica 12-13 MJC
Abordagem usada para alinhar grandes inserções clonadas • Primeiro é feito o mapeamento dos clones por padrões de digestão,marcadores de linkageou mutações induzidas. Genómica 12-13 MJC
Dessemapeamento…. • Escolhem-se os fragmentos a vermelho pois implicam a menor sobreposição. • É feita a sequenciação desses fragmentos: • Cada sequenciação (read) é avaliada quanto à sua qualidade. • É reconstruida a sequencia inicial usando as sobreposições. Genómica 12-13 MJC
Montagem de genomas completos Genómica 12-13 MJC
Métodomaisaplicadoatualmente • Uma vezque a maioria da sequenciaçãojánãoimplicaclonagem. • Dispensa o passo do mapeamento. • São sequenciadas as extremidades dos váriosfragmentosquesãodepoisalinhadas. Genómica 12-13 MJC
Desse alinhamento surge o “contig” • Inclui 3 fases: • Sobreposição • Alinhamento • Consenso Genómica 12-13 MJC
Desse alinhamento surge o “contig” A localização vai ser determinada pela homologia Genómica 12-13 MJC
Várioscontigsdão um scaffold Genómica 12-13 MJC
Alguns algoritmos de montagem de genomas Genómica 12-13 MJC
Greedy • Como a homologia é a única condição este tipo de algoritmos é muito influenciado pelas sequências repetitivas ou homologias. Genómica 12-13 MJC
Overlap-Layout-Consensus • Todas as sobreposições são mapeadas (Overlap) • É eliminada a informação redundante (Layout) • Usando a teoria de grafos é desenhado o mapa mais simples e que corresponderá à organização inicial. Genómica 12-13 MJC
Overlap-Layout-Consensus • Pode ser substituído pelo: Align-Layout-Consensuspois já há vários genomas de referência sequenciados. Genómica 12-13 MJC
Controlo de qualidade Genómica 12-13 MJC
Em genomas de novo • Não se sabe quase nada • Nº de scaffolds e contigs que representam o genoma. • A proporção de reads queconsegueser • O comprimento dos contigs e scaffolds relativamenteaocomprimento do genoma. Genómica 12-13 MJC
N50 • Tamanho do contig mais curto acima do qual se inclui 50% do genoma. Genómica 12-13 MJC
Os vários algoritmos devem ser comparados • Foi feita uma comparação no artigo GAGE: Genómica 12-13 MJC
O algoritmo deve ter em conta • Dependendo do organismo • Tamanho diferente dos genomas • Heterozigotia diferente • Humanos (1 par de bases pair/1000) • Lesmas do mar 1/50–100 Genómica 12-13 MJC
Independentemente do algoritmo… • Entra lixo • Sai lixo • Muitos sequenciadores têm controlos de qualidade para contaminações, quimeras e erros de leitura. Genómica 12-13 MJC
Montagem comparativa Genómica 12-13 MJC
Genomas de referência Genomas de mesma espécie ou espécies semelhantes que servem de modelo. Os algoritmos tentam alinhar as sequências obtidas ao que já está sequenciado Genómica 12-13 MJC
Problemas na Montagem de Genomas Genómica 12-13 MJC
Dificuldades • Contaminação • Sequênciasquenãopertencemaogenomaque se quersequenciar. • Erros de montagem • As sequênciasrepetidaspodeminduzirosalgoritmos de montagememerro. As secçõespodemsermontadascomomaiscurtasousobrepostaspeloquedesaparecem do genoma final. • Homologiaemgrandeescala. • Nosgenomas dos mamíferosházonas com umagrandepercentagem de homologia (>90%) mas quesãozonasdiferentes do genoma. Como a homologiaéusadaparafazerosalinhamentos as montagensficammalfeitas. • Polimorfismogenómico • Dado quemuitosgenomassãopoliploides a montagem de genomasmuitasvezesnãoconseguedistinguirestespolimorfismoscomopossibilidadesalternativas do mesmo locus. Genómica 12-13 MJC
Efeito das zonas repetidas Genómica 12-13 MJC
Bibliografia • http://www.ncbi.nlm.nih.gov/projects/genome/assembly/assembly.shtml • http://www.cbcb.umd.edu/research/assembly_primer.shtml • Artigo: de novo genomeassembly; GAGE ambos na pasta Genómica 12-13 MJC