1 / 28

1.CODON-BASED SELECTION TESTS

1.CODON-BASED SELECTION TESTS. SITI SINONIMI , si assume siano sotto neutralità d S o K S SITI NON SINONIMI d N o K N d N / d S = ω d N =d S ω=0 neutralità

joie
Download Presentation

1.CODON-BASED SELECTION TESTS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 1.CODON-BASED SELECTION TESTS SITI SINONIMI, si assume siano sotto neutralità dS o KS SITI NON SINONIMI dNo KN dN / dS =ωdN =dS ω=0 neutralità dN >dS ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi) dN <dS ω<1 selezione purificatrice (software PAML)

  2. McDONALD-KREITMAN TEST (McDonald and Kreitman, 1991) • (software DNASP) • Confronta il rapporto dN / dS in una specie con lo stesso rapporto in specie diverse • Sotto evoluzione neutrale le sostituzioni intra- e inter-specifiche sono dovute alle mutazioni e quindi sono uguali. Il rapporto tra diversità e divergenza è lo stesso per i siti dN e dS .

  3. 2. Sotto selezione positiva le sostituzione non-sinonime inter-specifiche dovrebbero essere maggiori rispetto a quelle intra-specifiche. Questo porta a una riduzione del rapporto diversità-divergenza ai siti non-sinonimi.

  4. 2. SELECTION TESTS BASED ON THE FREQUENCIES OF VARIANT SITES • Site frequency spectrum influenzata sia dalla selezione che da processi demografici • Eccesso di alleli rari • Recente espansione, molte varianti apparse da poco tempo in tutti i loci • Selezione positiva su un locus. Con l’aumento di frequenza si osservano molti alleli rari per quel locus, ma non in altri loci.

  5. Eccesso di alleli con frequenze intermedie Suddivisione della popolazione. Effetto su tutti i loci Balancing selection (=selezione che favorisce più di un allele e perciò previene la fissazione ) sul solo locus sul quale sta agendo.

  6. TAJIMA’s D (software DNASP) confronta due diverse misure di θ (quantità di variabilità attesa per ciascun nucleotide sotto evoluzione neutrale) una basata su S e una su . Assunzione dei metodi: sotto evoluzione neutrale le diverse stime di theta devono dare lo stesso valore. Si confrontano misure indipendenti dalle freq alleliche (S, numero di siti segreganti) con misure basate su freq. alleliche (π, nucleotide diversity) che sono influenzate dallo scostamento dalla neutralità. D=0 neutralità D significativamente positivo= suddivisione della popolazione o balancing selection D significativamente negativo= espansione della popolazione o selezione positiva

  7. Analisi Inter-popolazione Mira a quantificare le differenze tra le popolazioni da un punto di vista genetico. DISTANZA GENETICA • Due diversi approcci: • 1. basato sulle frequenze alleliche • 2. basato sugli stati allelici confronto tra le frequenze dei diversi aplotipi confronto diretto tra i diversi aplotipi

  8. Le distanze genetiche vengono usate per ricostruire le relazioni genetiche tra individui o tra popolazioni o tra specie. Il metodo utilizzato varia in base al marcatore genetico. Sotto determinate assunzioni (mutation-drift balance), le distanze genetiche risultano correlate linearmente con il tempo e sono quindi di grande utilità per ricostruire e datare le relazioni filogenetiche

  9. 2. confronto tra aplotipi Esempio: distanza genetica intermatch-mismatch, D dij differenza media fra coppie di sequenze (una della popolazione i e l’altra di j) dii, djjdifferenze medie all’interno delle pop i e j 1. confronto tra frequenze aplotipiche Esempio: distanza genetica Fst E' una misura di distanza genetica generale che può essere applicata a qualsiasi tipo di polimorfismo genetico.

  10. Rappresentazione visiva delle distanze genetiche n popolazioni = n-1 dimensioni necessarie per rappresentare le relazioni tra popolazioni

  11. Confronto a gruppi di due popolazioni per volta = per ogni campione popolazionistico viene calcolata la relativa distanza genetica da ogni altro considerato. MATRICI QUADRATE DI AFFINITÀ/DISTANZA, costruite in modo tale da esibire il confronto di una popolazione con ognuna delle altre e con se stessa (diagonale della matrice)

  12. Matrice di distanze genetiche

  13. Rappresentazione grafica di una matrice di distanze genetiche ANALISI MULTIVARIATE: permettono di ridurre lo spazio multidimensionale a due, tre dimensioni che possono essere interpretate, riducendo al minimo la perdita inevitabile di informazioni. • Diversi metodi permettono di rappresentare graficamente la matrice di distanze genetiche ottenuta precedentemente. • Tra questi: • MULTIDIMENSIONAL SCALING (MDS) Plot • ANALISI DELLE COMPONENTI PRINCIPALI (PCA) • MAPPE SINTETICHE riassumono informazioni su diversi alleli secondo una distribuzione geografica

  14. MULTIDIMENSIONAL SCALING (MDS) Plot costrizione delle distanze genetiche in uno spazio a due dimensioni con la minor perdita di informazione possibile (minore distorsione possibile) distorsione rappresentata dal parametro stress costruzione iterativa del plot (si continua fino a che il parametro di stress risulta minimo)

  15. Final Configuration, dimension 1 vs. dimension 2 Stress 0.0337 0.8 GALICIA 0.4 BERBA CENTRAL SPAIN ANDALUCIA NORD SPAIN FON BARIBA YORUBA CATALUNIA 0.0 DENDI Dimension 2 RIO CAYAPAS VICHE -0.4 -0.8 CAYAPA INDIANS -1.2 -1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4 Dimension 1

  16. ALTRI DESCRITTORI DELLE RELAZIONI GENETICHE TRA POPOLAZIONI • COSTRUZIONE DI ALBERI EVOLUTIVI • MAPPE SINTETICHE • ELABORARE IN MANIERA SINTETICAl'andamento della distribuzione geografica delle frequenze alleliche ed ottenere delle mappe utili per inferire i movimenti umani avvenuti nel passato e per comprendere le forze evolutive in azione • METODO PIÙ UTILIZZATO È QUELLO DELLE COMPONENTI PRINCIPALIche derivano dalle medie ponderate di tutte le frequenze geniche. • METODO PER LA RIDUZIONE O PER L'INDIVIDUAZIONE DELLA STRUTTURA DEI DATI

  17. FINALITA’ • RIDURRE IL NUMERO DI VARIABILI • INDIVIDUARE UNA STRUTTURA nelle relazioni tra le variabili, cioè CLASSIFICARE LE VARIABILI • IDEA BASE = Combinare due variabili in un singolo fattore • È possibile riassumere la correlazione tra due variabili in uno scatterplot. • Può quindi essere adattata UNA RETTA DI REGRESSIONE che rappresenti il "miglior" riassunto delle relazione lineare tra le variabili.

  18. DUE VARIABILI DEFINISCONO UN PIANO Dopo aver individuato la retta su cui la varianza risulta massima, rimane della variabilità attorno questa retta. Se si estende l'esempio delle due variabili a più variabili, i calcoli diverranno più complicati, ma il principio di base di esprimere due o più variabili per mezzo di un singolo fattore rimarrà lo stesso. Sono estratti diversi fattori consecutivi. Poiché ogni fattore successivo è definito in modo tale da massimizzare la variabilità non catturata dai fattori precedenti, I DIVERSI FATTORI CONSECUTIVI SONO INDIPENDENTI TRA LORO. UN NUMERO MOLTO PIÙ PICCOLO DI NUOVE VARIABILI (LE COMPONENTI PRINCIPALI)

  19. CP2 CP1 OBIETTIVO: RIASSUMERE LA GRANDE MASSA DI INFORMAZIONI ORIGINARIE L'estrazione delle componenti principali consiste in una rotazione massimizzante la varianza (varimax) dello spazio originale delle variabili. La prima componente è quella che rende conto della maggiore quantità di variabilità, e quindi di informazione, ricavabile dai dati; la seconda, il massimo possibile dell'informazione residua e così via fìno a che non viene spiegata la totalità dell'informazione contenuta nelle variabili originali (le frequenze alleliche). In genere ci si ferma alla terza componente perché le successive spiegano una quota troppo piccola della variabilità osservata.

  20. Per ogni componente si può costruire una mappa che descriva le variazioni delle diverse forme alleliche nella zona geografica considerata e, se alle componenti si abbinano dei colori, la distribuzione della variabilità risulterà dalle variazioni cromatiche. Un esempio classico di rappresentazioni di questo tipo è il lavoro pionieristico del gruppo di Cavalli-Sforza

  21. Come costruire una filogenesi • Dati usati come INPUT • Distanze genetiche, matrici • Caratteri, unità evolutive discrete. Consentono di inferire le caratteristiche dell’antenato. Confronto diretto tra gli stati allelici dei taxa considerati. I rami dell’albero rappresentano le mutazioni avvenute nel corso dell’evoluzione dei vari taxa, e non il valore di distanza genetica fra i taxa. • Metodi • “clustering method” usa algoritmo che combina i taxa in modo gerarchico (NJ e UPGMA) • “searching method” considera tutti gli alberi possibili e sceglie quello che meglio si adatta ai dati (MP e ML) • Networks

  22. In un cladogramma, tutti i nodi terminali sono taxa (gruppi di popolazioni o molecole note collegati dall’albero, OTUs Operational Taxonomic Units), quelli interni sono antenati ipotetici (HTUs Hypothetical Taxonomic Units). Cladogramma rappresenta le relazioni tra taxa, ma la lunghezza dei rami non riflette distanza evolutiva (≠ additive tree= le lunghezze dei rami riflettono quantitativamente le distanze evolutive). Albero rooted: esiste taxon ancestrale e un outgroup orientato rispetto al tempo evolutivo Processi biologici come ricombinazione o mutazioni parallele portano i rami a convergere, si formano allora dei reticoli, rappresentati da networks

  23. In un ALBERO ROOTEDesiste un particolare nodo, la RADICE, dal quale partono a senso unico tutte le vie che lo collegano ad ogni altro nodo. LA LUNGHEZZA DI CIASCUNA VIA CORRISPONDE AL TEMPO DI EVOLUZIONE E LA RADICE RAPPRESENTA L'ANTENATO COMUNE DI TUTTE LE OTUs IN STUDIO. Un ALBERO UNROOTEDla cui forma può anche non essere quella di un vero e proprio albero, ma quella di una rete (o network)è invece UN ALBERO IN CUI VENGONO ILLUSTRATE UNICAMENTE LE RELAZIONI TRA LE OTUsSENZA DEFINIRE ALCUN PERCORSO EVOLUTIVO.

  24. Caratteristiche di un buon albero: • EFFICIENTE, rapido da costruire • CONSISTENTE, si ottiene lo stesso albero quando si aggiungono nuovi dati • ROBUSTO, non risente delle variazioni delle assunzioni su cui è basato il metodo • DOTATO DI POTERE, bastano pochi dati per un albero corretto • RIPRODUCIBILE, la validità delle assunzioni può essere testata • Nessun metodo possiede tutte le caratteristiche

  25. IL TIPO DI DATI USATI COME INPUT • Le distanze genetiche tra popolazioni o molecole vengono calcolate da dati di riga (per ciascuna coppia di taxa) e rappresentate in forma di MATRICE DI DISTANZA. • Gli indici di distanza genetica si BASANO SULL'IMPORTANZA RELATIVA CHE SI DÀ IN CIASCUN MODELLO ALLE VARIE FORZE EVOLUTIVE. Matrice triangolare di distanza tra 5 popolazioni Alpha 0.000000 Beta 0.303893 0.000000 Gamma 0.857546 0.339731 0.000000 Delta 1.158921 0.913519 1.631729 0.000000 Epsilon 1.542897 0.619666 1.293707 0.165882 0.000000

  26. METODI FILOGENETICI CON MATRICI DI DISTANZA • UPGMA • ( Unweighted Pair-Group Method with Arithmetic mean) • Utilizza un ALGORITMO DI CLUSTERIZZAZIONE (RAGGRUPPAMENTO) SEQUENZIALE in cui le relazioni topologiche sono identificate sulla base della similarità (minore distanza genetica) e l'albero è costruito con un processo a tappe successive. Combina i due taxa con distanza genetica minore, questi creano un nuovo taxon che viene confrontato con gli altri taxa considerando la distanza genetica media dei due taxa di partenza (vedi dopo).

  27.  A  B  C  D  E  B 2  C  4  4  D  6  6  6  E  6  6  6  4  F  8  8  8  8  8 Può essere applicato se i tassi di evoluzione sono approssimativamente costanti tra le diverse linee, in modo da ammettere una RELAZIONE LINEARE TRA LE DISTANZE EVOLUTIVE E IL TEMPO DI DIVERGENZA. Affidabile per analisi di specie sincroniche.

  28. Numero di differenze nel citocromo C di diverse specie (da Margoliash & Fish, 1967) In pratica viene inizialmente identificata tra tutte le OTU la coppia più simile e trattata come una nuova OTU singola, definita OTU composta. Quindi fra tutte le OTU si identifica la coppia con la maggiore somiglianza e così via finchè non rimangono che due sole OTU. Quando si calcolano successivamente le varie distanze, quella tra una OTU semplice ed una composta è data dalla media delle distanze tra l'OTU semplice e ciascun costituente l'OTU composta.

More Related