830 likes | 1.11k Views
Pattern di sostituzione. “ La vita organica, ci dicono, si è evoluta gradualmente dal protozoo al filosofo, e questa evoluzione, ci assicurano, rappresenta senza dubbio un progresso. Disgraziatamente, chi ce lo assicura è il filosofo, non il protozoo. ”
E N D
Pattern di sostituzione “La vita organica, ci dicono, si è evoluta gradualmente dal protozoo al filosofo, e questa evoluzione, ci assicurano, rappresenta senza dubbio un progresso. Disgraziatamente, chi ce lo assicura è il filosofo, non il protozoo.” (B. Russel, Misticismo e Logica, 1918)
Sommario • L’evoluzione molecolare • Pattern di sostituzione nei geni • Stima del numero di sostituzioni • Variazioni nelle velocità evolutive tra geni • Orologi molecolari • L’evoluzione negli organelli
Introduzione • Confronti tra sequenze nucleotidiche di due o più organismi spesso rivelano che sono stati accumulati cambiamenti a livello del DNA, anche se le sequenze provengono da regioni funzionalmente equivalenti • Non è raro, infatti, trovare sequenze che durante il percorso evolutivo sono diventate così diverse da rendere assai difficile ottenerne degli allineamenti attendibili • Le analisi, sia del numero sia del tipo di sostituzioni che si sono verificate durante il percorso evolutivo, sono di centrale importanza per lo studio dell’evolu-zione molecolare
Perché l’evoluzione molecolare? 1 • DNA molecules are notonly the key toheredity, butthey are “documentofevolutionaryhistory” (Emile Zuckerkandl) • L’evoluzione molecolare integra la biologia evolutiva, la biologia molecolare e la genetica delle popolazioni • Descrive il processo evolutivo (cambiamenti nel tempo, essere vs. divenire) di DNA, RNA e proteine • Si occupa di pattern (schemi, modelli) e studia l’evolu-zione… • …delle entità molecolari, geni, genomi, proteine, introni, arrangiamenti cromosomici • …degli organismi e dei complessi biologici, cioè specie, sistemi che coevolvono, nicchie ecologiche, modelli migra-tori, usando i dati molecolari
Perché l’evoluzione molecolare? 2 • Per capire le basi della diversità biologica
Perché l’evoluzione molecolare? 3 • Per comprendere la storia evolutiva della vita sulla terra, che è scritta nelle nostre molecole
Perché l’evoluzione molecolare? 4 • Poiché il processo di selezione naturale è veramente efficace nel rimuovere i cambiamenti dannosi, l’evo-luzione molecolare serve anche a riconoscere e caratterizzare le porzioni di genoma che sono più importanti dal punto di vista funzionale • …ovvero a rilevare come la frequenza di sostituzione dei nucleotidi sia diversa in zone distinte dello stesso gene, per geni differenti, e attraverso le specie, e possa essere usata come una misura dell’importanza funzionale (e quindi della necessità di “conservazio-ne”) della particolare sequenza
Geni e proteine 1 • Perché le proteine possono cambiare? • Perché sono presenti più proteine che svolgono la stessa funzione quindi, se ne cambia una, la funzione è comun-que preservata • Perché il cambiamento non comporta modifiche né nella struttura (destabilizzazione) né nella funzione
Geni e proteine 2 • Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro • Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle proteine che essi codificano • Esempio: le globine di uomo e di topo hanno iniziato a divergere circa 80 milioni di anni fa, quando avvenne la divisione che dette vita ai primati e ai roditori • Geni paraloghi: geni originati dalla duplicazione di un unico gene nello stesso organismo • Esempio: globina e globina umana hanno iniziato a divergere in seguito alla duplicazione di un gene globinico ancestrale • In entrambi i casi, c’è omologia
Geni e proteine 2 speciazione duplicazione
Come cambiano le proteine 1 • Una proteina presente in un organismo può cambiare in seguito a mutazioni nella sua sequenza codificante • Le mutazioni possono essere puntiformi o più estese • Sostituzione puntiforme sostituzione di una singola base • Inserzione una o più basi vengono inserite • Delezione una o più basi vengono tolte • Inversione un tratto di DNA si inverte
Come cambiano le proteine 2 • Il codice genetico è ridondante, perciò non sempre una sostituzione porta ad un cambiamento di amino-acido • Si ha una mutazione silente se la proteina rimane funzio-nalmente invariata • Negli altri casi, dal punto della mutazione in poi, gli aminoacidi cambiano, e la proteina può diventare “irriconoscibile” e perdere la propria funzionalità
Come cambiano le proteine 3 Sostituzioni puntiformi 1 2 3 • Acido glutammico Acido glutammico • Cisteina Serina (aminoacidi polari con molecola chirale) • Glutammina Codone di stop
Come cambiano le proteine 4 Delezioni
Come cambiano le proteine 5 Inserzioni
Come cambiano le proteine 6 Inversioni
Come cambiano le proteine 7 • La similarità biologica è spesso dovuta ad omologia, ma può anche presentarsi per caso, oppure per fenomeni di conver-genza adattativa, sia a livello morfologico (analogia) sia a livello molecolare • Convergenza adattativa: adozione, da parte di organismi di-versi, di «soluzioni tecniche» simili per adattarsi all’ambien-te, talvolta anche partendo da organi e apparati differenti • Esempio: l’ala di un uccello e l’ala di un pipistrello si sono evolute indipendentemente e di conseguenza non sono omologhe • Nel trattare le sequenze è sempre più corretto utilizzare il termine similarità, in quanto è sempre possibile stabilire quanto due sequenze siano simili, mentre non sempre si può decidere se la similarità sia dovuta ad omologia, a convergenza adattativa, oppure al caso
Come cambiano le proteine 8 • Se due sequenze hanno un significativo grado di similarità per tutta la loro lunghezza è altamente probabile che ciò sia dovuto ad una “memoria” della loro relazione evolutiva • Due sequenze che non mostrano forti similarità posso-no però ugualmente essere omologhe ma molto diver-genti (comune progenitore molto remoto, dinamica evolutiva molto rapida) • Attenzione: Similarità Omologia È un dato quantitativo, legato alla scelta di una metrica, e prescinde da eventuali ipotesi sulla causa della similarità stessa È un dato qualitativo, che da atto dell’origine filogenetica comune di due sequenze
Pattern di sostituzione nei geni 1 • Le alterazioni della sequenza del DNA possono avere conseguenze drastiche per le cellule viventi • Mutazioni: scambi di nucleotidi o eventi indel • Gli errori possono essere deleteri, vantaggiosi o neutrali • Inoltre: • I cambiamenti vantaggiosi sono in minoranza • Alcuni cambiamenti in sequenze nucleotidiche hanno mag-giori conseguenze, che si diversificano ulteriormente in rela-zione ad organismi distinti • Tuttavia, per un organismo nel suo ambiente tipico, la maggior parte dei geni è molto vicina allo stato ottimale • Le cellule hanno sviluppato meccanismi complessi che assicurano l’accuratezza della replicazione e della riparazione del DNA
Pattern di sostituzione nei geni 2 • La replicazione (o duplicazione) del DNA è il meccanismo molecolare attraverso cui viene prodotta una copia del DNA cellulare • Ogni volta che una cellula si divide, infatti, l’intero genoma deve essere duplicato per poter essere trasmesso alla progenie • La riparazione del DNA è essenziale alla sopravvivenza delle cellule, perché protegge il genoma da danni e mutazioni permanenti e nocive • È un processo costantemente in atto • Esempio: nelle cellule umane, sia le normali attività metabo-liche che i fattori ambientali determinano almeno 500.000 singole lesioni molecolari per cellula al giorno
Pattern di sostituzione nei geni 3 • Quando la cellula invecchia, la velocità di replicazione/ripa-razione del DNA decresce fino a non tenere più il passo con gli eventi di creazione dei danni • Senescenza (dormienza irreversibile): indica il processo per cui, durante la duplicazione cellulare, alcune cellule perdono progressivamente la capacità di dividersi • Apoptosi (morte cellulare programmata): è un sofisticato meccanismo in cui l’evoluzione cellulare ha fatto da setaccio per difendere l’organismo da cellule infettate da virus, da cellule del sistema immune autoreattive, da cellule in cui si verifica un danno al DNA, da cellule tumorali • Carcinogenesi: è il processo che trasforma cellule normali in cellule cancerose
Frequenze di mutazione 1 • Il numero di sostituzioni K che due sequenze omolo-ghe hanno subito dal loro ultimo antenato comune può essere valutato contandone le differenze • Quando K è espresso in termini di numero di sostitu-zioni per sito ed è accoppiato con un tempo di diver-genza T • Si può valutare la frequenza r di sostituzione • Supponendo che le sostituzioni si accumulino simulta-neamente e indipendentemente in entrambe le se-quenze, la frequenza di sostituzione è r K(2T)
Frequenze di mutazione 2 • Il calcolo della frequenza di sostituzione è efficace se le velocità evolutive, per diverse specie, sono simili • Stima dei tempi degli eventi evolutivi • Confronti delle frequenze di sostituzione all’interno di uno stesso gene, e fra un gene e l’altro, sono utili per determinare il ruolo di regioni genomiche differenti
Vincoli funzionali 1 • Cambiamenti di geni che diminuiscono la capacità di sopravvivenza di un organismo vengono “arginati” dal processo di selezione naturale • Poiché le proteine sono responsabili della funzionalità delle cellule, non sorprende che quei cambiamenti nel-la sequenza nucleotidica che fanno variare le proprietà catalitiche o strutturali delle proteine codificate siano oggetto di selezione naturale • Le porzioni di geni particolarmente importanti sono definite sotto vincoli funzionali e tendono a variare poco (a cambiare molto lentamente) nel corso dell’evoluzione
Vincoli funzionali 2 • Viceversa, molti cambiamenti della sequenza nucleoti-dica di un gene non hanno effetto sulla codifica delle relative sequenze aminoacidiche o sui livelli di espres-sione delle proteine • Sono meno soggetti a selezione naturale e si accumulano rapidamente durante il processo evolutivo
Vincoli funzionali 3 • Esempio: cambiamenti accumulati nei geni per le globine di quattro mammiferi (uomo, topo, coniglio e mucca) che hanno avuto un antenato comune 100 milioni di anni fa
Vincoli funzionali 4 • Esempio (cont.) • Un tipico gene eucariotico è composto sia da nucleotidi che specificano la sequenza aminoacidica di una proteina (sequenze codificanti), sia da sequenze non codificanti • La frequenza dei cambiamenti è circa due volte più alta nelle sequenze non codificanti dei geni per le globine (3.33109 sostituzioni/sito/anno contro 1.58109 sosti-tuzioni/sito/anno) • Le sequenze non codificanti si dividono in: • Introni • Regioni leader (a monte dei geni strutturali) • Regioni trailer, trascritte ma non tradotte • Sequenze che sono adiacenti alle terminazioni 5’ e 3’
Vincoli funzionali 5 • Esempio (cont.) • Ogni regione tende ad accumulare cambiamenti a frequenze diverse, generalmente correlate a quanto i relativi nucleotidi sono funzionalmente vincolati • Inoltre, è logico aspettarsi che altri geni accumulino sostituzioni a frequenze differenti, così come che i geni per le globine sottostiano a livelli diversi di vincoli funzionali per specie distinte • Tuttavia… in generale: • I cambiamenti si accumulano più rapidamente negli introni e nelle sequenze di tipo flanking… • …quindi nelle regioni che sono trascritte ma non tradotte… (con l’eccezione della sequenza alla terminazione 5’ del gene, che è funzionalmente importante per la successiva fase di traduzione) • …meno rapidamente all’interno di sequenze codificanti
Vincoli funzionali 6 • Esempio (cont.) • I dati provenienti dai geni per le globine forniscono una stima della scansione temporale di accumulo dei cambiamenti nucleotidici • Mentre per una sequenza nucleotidica, un cambiamento dello 0.35% ogni milione di anni (frequenza approssimativa per introni e sequenze flanking) può sembrare estremamente lento da una prospettiva umana, si rivela relativamente veloce dal punto di vista dell’evoluzione molecolare
Vincoli funzionali 7 • Dal punto di vista strutturale: • La maggior parte delle mutazioni avviene sulla superficie della proteina, mentre gli aminoacidi del core sono maggiormente conservati, in modo da consentire lo stes-so folding • Nell’evoluzione, la similarità di sequenza è meno preser-vata rispetto alla struttura terziaria
Sostituzioni sinonime e non 1 • 18 dei 20 aminoacidi sono codificati da più di un codone • Per esempio, GGG, GGA, GGU, GGC codificano tutti per l’aminoacido glicina • Ogni cambiamento nella terza posizione di un codone per la glicina porta ad un codone che i ribosomi interpretano equi-valentemente per la costruzione della struttura primaria della proteina • Cambiamenti a livello nucleotidico di sequenze codificanti che non variano la sequenza aminoacidica della proteina sono detti sostituzioni sinonime • Viceversa, cambiamenti nella seconda posizione dei codoni della glicina possono causare cambiamenti nella sequenza aminoacidica risultante (per esempio, GCG codifica per l’alanina) e rappresentano sostituzioni non sinonime
Sostituzioni sinonime e non 2 • Se è vero che la selezione naturale esegue una netta distinzione fra proteine funzionali e malfunzionanti, le sostituzioni sinonime dovrebbero osservarsi più fre-quentemente di quelle non sinonime (nelle sequenze codificanti) • Inoltre, non tutte le posizioni all’interno della tripletta di nucleotidi di un codone danno luogo in modo equivalente a sostituzioni non sinonime
Sostituzioni sinonime e non 3 • I nucleotidi della tripletta appartengono a tre categorie • Siti non degeneri: posizioni del codone in cui le mutazioni portano sempre a sostituzioni aminoacidiche (es.: UUU codifica per la fenilalanina, CUU per la leucina, AUU per l’isoleucina, GUU per la valina) • Siti doppiamente degeneri: posizioni del codone i cui due diversi nucleotidi portano alla traduzione dello stesso aminoacido, mentre gli altri due codificano per un amino-acido differente (es.: GAU e GAC codificano per l’acido aspartico, GAA e GAG per l’acido glutammico) • Siti quattro volte degeneri: posizioni del codone in cui il cambiamento di un nucleotide con ciascuna delle altre tre alternative non ha effetti sull’aminoacido che i ribosomi inseriscono nella proteina (es.: terza posizione del codo-ne della glicina)
Sostituzioni sinomine e non 4 • La selezione naturale ”contrasta” primariamente le mutazio-ni che alterano la funzione della proteina • I cambiamenti nucleotidici si accumulano più rapidamente nei siti quattro volte degeneri e meno velocemente nei siti non degeneri • La situazione descritta si osserva normalmente in natura • Le sostituzioni che si sono accumulate nelle sequenze codifi-canti dei geni per le globine dell’uomo e del coniglio si rilevano soprattutto in corrispondenza dei siti quattro volte degeneri (le frequenze di sostituzione sono molto simili a quella delle sequenze 3’flanking e delle altre regioni libere da vincoli selettivi)
Indel e pseudogeni 1 • Nel caso di geni di trascrizione attivi esiste, in natura, una forte propensione a contrastare eventi di inserzione e delezione, a causa della loro tendenza ad alterare la finestra di lettura usata dai ribosomi • Questa tendenza contraria alle mutazioni della finestra di scorrimento nelle regioni codificanti è così forte che gli enzimi coinvolti nella replicazione e riparazione del DNA sembrano essersi evoluti in modo da rendere gli indel in ogni regione del genoma circa dieci volte meno probabili rispetto a agli eventi di sostituzione • Nel caso, invece, del fenomeno di duplicazione genica, può accadere che geni, che erano originariamente sottoposti a vincoli selettivi, siano diventati trascrizionalmente inattivi
Indel e pseudogeni 2 • I geni con nuove funzioni, comunemente, derivano da geni con funzioni esistenti e utili • La duplicazione di un intero gene permette a una copia di essere provvista della funzione dell’originale e all’altra di svincolarsi dal vincolo selettivo e accumulare mutazioni (nella regione codificante o nel promotore) • Talvolta, la copia in evoluzione del gene è soggetta a cambiamenti che le permettono di acquisire una nuova funzione fondamentale per la salute dell’organismo • Più spesso, tuttavia, una copia diventa uno pseudogene, cioè non funzionale e trascrizionalmente inattivo • I genomi dei mammiferi sono ricchi di pseudogeni, e le loro sequenze tendono ad accumulare sostituzioni ad una frequenza molto alta, con una media di 4 sostituzioni per sito ogni 100 milioni di anni
Sostituzioni e mutazioni • La selezione naturale ha un effetto insidioso sui dati disponibili per le analisi • Con rarissime eccezioni, infatti, nelle popolazioni di orga-nismi presenti in natura, gli unici alleli (varianti di sequenza di un gene) disponibili sono quelli che non hanno avuto un effetto dannoso sulla salute dell’organismo • I cambiamenti nella sequenza nucleotidica di un gene sono tutti possibili, ma non tutti sono invece “osservabili” • Differenza fra i concetti di mutazione e sostituzione • Le mutazioni sono cambiamenti nella sequenza nucleotidica che avvengono per errore durante i processi di replicazione/riparazione del DNA • Le sostituzioni sono mutazioni che hanno “passato il filtro” della selezione naturale • Il numero di sostituzioni è “facile” da stimare, difficile invece ottenere una stima attendibile della frequenza di mutazione
Deriva genetica e fissazione 1 • La maggior parte delle popolazioni di organismi presenti in natura posseggono un numero consistente di variazioni genetiche • Gli esseri umani, per esempio, differiscono tra loro in media per una coppia di basi ogni 200 • Versioni diverse di un gene all’interno di un organismo di una data specie sono chiamate alleli • Le differenze fra gli alleli possono… • …essere relativamente innocue (un’unica differenza in un nu-cleotide in una sequenza 3’flanking) • …avere conseguenze drammatiche (per esempio, la presenza di un codone di stop prematuro che causa la produzione di una proteina troncata e non funzionante) • Il cambiamento nelle frequenze relative dei diversi alleli rappresenta l’essenza dell’evoluzione
Deriva genetica e fissazione 2 • Ad eccezione di quelli introdotti tramite migrazione o trasferimento tra specie (trasporto orizzontale del DNA, cioè sovrapposizione non dovuta ad ereditarietà), i nuovi alleli provengono da sostituzioni che si presentano in un allele esistente all’interno di un singolo membro di una popo-lazione • Le nuove versioni dei geni si presentano inizialmente con frequenza molto bassa q1(2N) con N numero di organismi diploidi attivamente riproduttivi all’interno della popolazione • Un allele neutrale appena sorto per sostituzione in una popolazione di N individui ha una probabilità 1/(2N) di essere fissato e (2N1)/(2N) di essere eliminato
Deriva genetica e fissazione 3 • Dal momento che le frequenze di sostituzione sono general-mente basse e che i cambiamenti cruciali per la salute di un individuo raggiungono rapidamente una frequenza pari a 0 o 1, come si spiegano i livelli relativamente alti di variazione riscontrati all’interno delle popolazioni di organismi? • La maggior parte delle variazioni osservate tra gli individui ha effetti trascurabili (favorevoli o dannosi), tende ad essere cioè selettivamente neutrale • Di fatto, la deriva genetica può portare alla fissazione di alleli neutrali comparsi per mutazione
Deriva genetica e fissazione 4 • La probabilità P che ogni variante neutrale di un gene venga alla fine perduta da una popolazione dipende dal caso ed è pari a 1q, dove q è la frequenza relativa dell’allele nella popolazione • Per lo stesso principio, la probabilità che un particolare allele neutrale sia fissato (si presenti nella popolazione con frequenza 1) è uguale a q, la frequenza corrente del gene nella popolazione
Deriva genetica e fissazione 5 • Le analisi comparative fra sequenze permettono ai biologi molecolari di evitare il lungo e faticoso processo di mutage-nesi a saturazione, attraverso il quale si producevano tutte le possibili variazioni della sequenza nucleotidica di un gene per determinare quelle in grado di alterarne la funzione • Infatti, la Natura di per sé esegue un esperimento di mutagenesi a saturazione perpetuo e la maggior parte delle variazioni osservabili corrispondono a cambiamenti che non alterano la funzione dei geni in modo significativo
Stima del numero di sostituzioni 1 • Il numero di sostituzioni K in un allineamento tra due se-quenze è la variabile più importante per le analisi di evoluzione molecolare • Se esiste un allineamento “ottimale” che suggerisce che tra due sequenze si sono verificate relativamente poche sostituzioni, il conteggio diretto delle sostituzioni osservabili pè una buona stima di K • In generale, il computo diretto è però una sottostima, a causa delle sostituzioni multiple che possono verificarsi relativamente allo stesso nucleotide nel percorso evolutivo dall’ultimo antenato comune
Stima del numero di sostituzioni 2 Sottostima del numero di sostituzioni a causa delle sostituzioni multiple, le distanze osservate possono sottostimare il reale ammontare del cambiamento evolutivo
Modello di Jukes-Cantor 1 • Per considerare questa possibilità, T. Jukes e C. Cantor (1969) as-sunsero che ogni nucleotide aves-se la stessa probabilità di essere sostituito da un qualsiasi altro • Utilizzando questa ipotesi, crearo-no un modello matematico in cui, se lafrequenza di mutazione di • Dove le sostituzioni sono comuni, non vi sono garanzie che un particolare sito non sia stato sottoposto a cambiamenti multipli C C Tempo 0 Tempo 1 T C Tempo 2 C C un nucleotide in ognuno degli altri tre è , la frequenza complessiva di sostituzione di un dato nucleotide è 3
Modello di Jukes-Cantor 2 al tempo 1 è PC(1)13 • Poiché, se la C originale mutasse in un altro nucleotide in quel primo lasso di tempo, potrebbe verificarsi una rever-sione (retromutazione) a C, al tempo 2, la probabilità PC(2) sarebbe (13)PC(1) (1 PC(1)) • In questo modello, se un sito all’interno di un gene è occupato da una C al tempo 0, allora la probabilità PC(1), che in quel sito rimanga lo stesso nucleotide • Si può dimostrare che, a un dato tempo t, nel futuro, vale • PC(t) 14 (34)e4t
Modello di Jukes-Cantor 3 • Infatti, utilizzando una formalizzazione del metodo mediante la matrice di probabilità di sostituzione puntuale si ha: • con rij che rappresenta il tasso di sostituzione del nucleo-tide jcon il nucleotide i • Sia P la matrice evolutiva, dove gli elementi pij sono le probabilità di avere, in un certo sito, il nucleotide ial tempo t, dato j al tempo t0
Modello di Jukes-Cantor 4 • La matrice evolutiva P è la soluzione dell’equazione differenziale • dP(t)/dtP(t)R • ovvero • dpij(t)/dt pik(t)rkj • da cui • P(t) exp{Rt} • Pertanto, gli elementi della matrice P sono complessi-vamente definiti da • 14 (14)e4tse i j • pij(t) • 14 (34)e4t se i j 4 k1 {
Modello di Jukes-Cantor 5 • I dati di sequenze nucleotidiche divennero disponibili, per la prima volta, dieci anni dopo la formulazione del modello di Jukes e Cantor e fu subito evidente che l’assunzione di uniformità globale, nei pattern di sostituzione, costituiva una semplificazione grossolana • Tuttavia, il loro modello continua a fornire un utile strumento per valutare il numero K di sostituzioni per sito, quando sono possibili sostituzioni multiple
Modello di Jukes-Cantor 6 • Il modello JC può essere formalizzato anche attraverso la relazione • K 34 ln[1(43)p] • dove p è la frazione di nucleotidi che un semplice conteggio rivela essere differenti fra le due sequenze • L’equazione è coerente con l’idea che, quando due sequenze hanno pochi siti di noncorrispondenza, psia piccolo, così come è bassa la probabilità che siano avvenute sostituzioni multiple in un dato sito • Viceversa, quando si osserva un numero significativo di noncorrispondenze, il numero reale di sostituzioni per sito sarà molto maggiore del computo diretto • I termini 34 e 43 danno atto della presenza di quattro nucleotidi che possono essere sostituiti in tre modi diversi, tutti equiprobabili (sequenze non affini dovrebbero corrispondere al 25% solo per effetto del caso)