530 likes | 712 Views
Filogenias moleculares. Sergio Russo Matioli Depto. De Genética e Biologia evolutiva IB - USP Com contribuições de: Dra Erika Sendra Tavares. Genética de populações, evolução molecular e suas implicações nas reconstruções filogenéticas. Parte I. Genética de populações.
E N D
Filogenias moleculares Sergio Russo Matioli Depto. De Genética e Biologia evolutiva IB - USP Com contribuições de: Dra Erika Sendra Tavares
Genética de populações, evolução molecular e suas implicações nas reconstruções filogenéticas Parte I
Genética de populações Ciência que estuda a dinâmica de alelos e genótipos em populações Dados empíricos: Genótipos de amostras populacionais Ferramentas analíticas: Estimadores de parâmetros baseados em modelos matemáticos
Genética de populações Fenômenos estudados A) Estruturas espaço-temporais de freqüências gênicas e genotípicas B) Sistemas de cruzamento C) Mutações D) Fluxo gênico E) Seleção natural F) Deriva genética
Genética de populações Problemas mais comuns A) Problemas de escala: Estimativas de números muito pequenos (taxas de mutação, coeficientes de seleção, taxas de migração) e números muito grandes (Tamanhos populacionais, número de gerações). O conhecimento empírico dos valores é quase sempre impraticável. B) Problemas de testes de hipóteses: Os fenômenos estudados pela genética de populações não são mutuamente exclusivos e processos diferentes podem originar padrões semelhantes.
Genética de populações Soluções dos problemas comuns A) Muitos parâmetros de Genética de populações que podem ser mais facilmente estimados resultam da multiplicação de valores grandes por valores pequenos, como Nm, Ns, Nµ, etc. (N= tamanho populacional, s = coeficiente de seleção e µ = taxa de mutação) B) Problemas de testes de hipóteses: Certos processos têm efeitos globais e outros têm efeitos locais, assim, o estudo de vários locos pode ajudar na interpretação dos padrões.
Evolução molecular Ciência que estuda padrões existentes em macromoléculas de organismos atuais e faz inferências sobre processos que ocorreram na geração de tais padrões durante a evolução dos organismos. Dados empíricos: Seqüências e estruturas de macromoléculas Ferramentas analíticas: Programas computacionais baseados em modelos matemáticos.
Evolução molecular Fenômenos estudados A) Modificações de estruturas primária, secundária, terciária e quaternária de macromoléculas por substituição de monômeros ou rearranjos. B) Duplicações gênicas C) Transferências horizontais de genes D) Recrutamento de genes
Evolução molecular Problemas mais comuns A) Estabelecimento da homologia (as macromoléculas consideradas de organismos atuais derivam da mesma macromolécula que existiu em um ancestral comum?). B) Estabelecimento do tipo de homologia (ortologia, paralogia e xenologia). C) Necessidade de conhecimento filogenético prévio.
Evolução molecular Soluções dos problemas mais comuns A) A homologia pode ser estabelecida com informações de outros níveis estruturais (estrutura 2ária, 3d), B) O estabelecimento do tipo de homologia fica facilitado com o crescimento dos bancos de dados de genomas inteiros e também com conhecimento de séries parálogas completas. C) As filogenias podem ser reconstruídas dados de outra natureza e as informações paleontológicas podem também ser utilizadas em certos casos.
Estrutura de proteínas RNAse
Algumas generalizações Qualquer mudança evolutiva, em qualquer nível fenotípico (bioquímico, fisiológico, etológico, morfológico, ecológico, etc.), tem NECESSARIAMENTE como causa pelo menos uma modificação de uma macromolécula hereditária. Uma modificação de uma macromolécula hereditária pode causar OU NÃO uma mudança em algum nível fenotípico (bioquímico, fisiológico, etológico, morfológico, ecológico, etc.)
Algumas generalizações Uma mudança evolutiva em qualquer nível fenotípico (bioquímico, fisiológico, etológico, morfológico, ecológico, etc.) pode ser causada por UMA ou MAIS modificações diferentes em macromoléculas hereditárias. As mudanças evolutivas fixadas em organismos atuais passaram necessariamente por processos estudados pela Genética de populações.
Evolução molecular e genética de populações Principais dados empíricos: As relações entre a estruturas primárias de macromoléculas de organismos atuais refletem muito mais o parentesco dos organismos do que as características fenotípicas associadas a estes. (Zukerkandl e Pauling, 1962) Macromoléculas diferentes evoluem com velocidades diferentes
Evolução molecular e genética de populações Principais dados empíricos: Trechos diferentes de macromoléculas evoluem com velocidades diferentes Macromoléculas que evoluem mais rapidamente são mais polimórficas
Implicações teóricas dos padrões observados de evolução molecular Os polimorfismos moleculares podem ser mantidos dinamicamente por seleção natural ou podem ser transitórios como resultado de deriva genética A manutenção de polimorfismos por seleção natural, entretanto implica a imposição de carga genética para as populações naturais
Carga genética Carga genética é definida como a fração da população que deixa de se reproduzir por uma causa de natureza genética. A carga genética pode ser mutacional, recombinacional ou resultante de seleção natural.
Decorrências teóricas O principal motor da evolução molecular, especialmente no nível de substituições nucleotídicas, é a deriva genética
Propriedades da evolução por deriva genética Populações grandes estão menos sujeitas à deriva genética mas apresentam maior probabilidade de aparecimento de mutantes neutros. Populações pequenas estão mais sujeitas à deriva genética mas apresentam menor probabilidade de aparecimento de mutantes neutros.
Propriedades da evolução por deriva genética As taxas de evolução neutra por deriva genética são portanto constantes e independentes dos tamanhos populacionais. As taxas de evolução neutra por deriva genética são portanto proporcionais às taxas de mutação e à intensidade de seleção natural negativa.
Implicações da evolução por deriva genética nas reconstruções filogenéticas de organismos por informações de seqüências macromoleculares Escolha de moléculas 1. Há a necessidade do estabelecimento inequívoco de homologia do tipo ortologia. 2. Idealmente sujeita à evolução predominantemente neutra. 3. Taxas compatíveis com o nível taxonômico alvo.
Implicações da evolução por deriva genética nas reconstruções filogenéticas de organismos por informações de seqüências macromoleculares Escolha dos métodos de análise Uma vez que a evolução por deriva genética pode ser considerada como o principal motor da evolução no nível molecular e esta depende basicamente das propriedades dos processos de mutação e de seleção natural negativa, idealmente esses fatores têm que ser levados em conta.
Filogenias moleculares. Métodos Parte II
A B Seqüências recentes C D Seqüências ancestrais Filogenias “História evolutiva de um grupo taxonômico, incluindo as relações de parentesco entre espécies ancestrais em vários níveis e as espécies descendentes.” - Dalton de Souza Amorim.
Dados utilizados em reconstruções filogenéticas Fenotípicos Genotípicos Caracteres homólogos: similaridades devidas à ancestralidade comum Exemplo: 1 2 3 4 5 6 Táxon A A G C G G A Táxon B A C G C T A Táxon C T C G C T T Táxon D T C G C T A Estados diferentes de um mesmo caráter
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias Máxima parcimônia Máxima verossimilhança
Métodos baseados em distâncias Sejam duas seqüências macromoleculares: CGTGGTGGTAGTCGTAGCATGTACATGCAT CATCGTAGTAGCTGTAGCATGTACACGCAT Elas têm 30 nucleotídeos de comprimento. Diferem em 6 deles. A distância mais simples que podemos calcular é a chamada Distância p = 6/30 = 0,3 ou 30%.
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias Dada uma matriz de distâncias:
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias Árvores são diagramas com dimensões fracionárias nos quais os nós são conectados por ramos, sem que haja ciclos. Uma árvore derivada de uma matriz de distância deve respeitar as distâncias presentes na matriz.
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias Considere a seguinte matriz com distâncias par a par entre as seqüências A, B, C, D e E (p. ex. Número de sítios diferentes):
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias Os nós A, B, C, D e E e as distâncias entre os nós podem ser assim representados:
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias As linhas que conectam os nós A, B, C, D e E podem ser rearranjadas geometricamente de tal forma que as distâncias presentes na matriz sejam preservadas:
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias As distâncias nas árvores são idênticas às da matriz:
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias Nesse caso particular, uma árvore ultramétrica pôde ser reconstruída:
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias Considere a seguinte matriz com distâncias par a par entre as seqüências A, B, C, D e E (p. ex. Número de sítios diferentes):
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias As distâncias na árvore são as mesmas da matriz:
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias No caso particular das distancias abaixo não pôde ser reconstruída uma árvore ultramétrica:
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias. Vantagens • Método simples e muito rápido; • Pode ser aplicado em bases de dados muito extensas.
Reconstrução filogenética: Métodos de inferência Métodos baseados em distâncias. Desvantagens • Não considera os dados originais, apenas as distancias. • Mais sujeito ao fenômeno GIGO (ELSL).
7 passos 8 passos 9 passos C B A A A B B D C D D C Reconstrução filogenética: Métodos de inferência Máxima parcimônia Modelo evolutivo – menor número de mutações explicam o conjunto de dados. Táxon A Táxon B Táxon C Táxon D Homoplasia: origens independentes do mesmo estado de caráter
1 3 2 T G C A T A 1 Reconstrução filogenética: Métodos de inferência Máxima parcimônia Substituições múltiplas e homoplasias Substituições múltiplas ou homoplasia podem ser comuns em dados moleculares: • As homoplasias não podem ser evidenciadas através do estudo da estrutura e do desenvolvimento.
Reconstrução filogenética: Métodos de inferência Máxima parcimônia. Vantagens • Método com premissas simples; • Deve resultar em dados confiáveis: - Homoplasia e substituições múltiplas forem raras ou distribuídas aleatoriamente na topologia. - Amostragem densa.
Reconstrução filogenética: Métodos de inferência Máxima parcimônia. Desvantagens • Pode levar a resultados errados se homoplasia for comum ou concentrada em partes específicas da árvore. Exemplo: • Desvio de composição de bases; • Atração de ramos longos. Mais de uma linhagem acumulando substituições em velocidade diferente das demais linhagens. • Exige muito esforço computacional.
G A Purina Pirimidina C T Reconstrução filogenética: Métodos de inferência Máxima verossimilhança L = P (dados/árvore) Verossimilhança (L) é a probabilidade dos dados dado o modelo evolutivo e uma hipótese de topologia filogenética. Modelo evolutivo Reconhecimento de diferentes padrões de substituição. Transição Transversão
Reconstrução filogenética: Métodos de inferência Máxima verossimilhança. Modelo evolutivo Freqüência de bases, por exemplo: pi(A) = 33.0% pi(C) = 37.0% pi(G) = 10.0% pi(T) = 20.0% Proporção de sítios invariáveis Taxa 0 de variação Distribuição dos sítios variáveis Substituições distribuídas ao longo dos sítios
Escolha do modelo evolutivo Os valores dos parâmetros considerados são estimados a partir dos dados com base no modelo evolutivo escolhido.
n C A LT = L (1) x L (2) x L (3) x L (4) x..x L (N)= L (i) A A L(5) = Prob + i = 1 C G 1 2 3 4 5 6 7 C A A C Táxon Prob + A A A G A C T T C G Táxon B A G C C C T T C A Táxon C T C A G A T A T C Prob + D A G A G G T C Táxon C G Prob ... + A A C B A C C A N N Prob + B C D D D B C G Reconstrução filogenética: Métodos de inferência Máxima verossimilhança L = P (dados/árvore) Verossimilhança (L) é a probabilidade dos dados dado o modelo evolutivo e uma hipótese de topologia filogenética.