390 likes | 593 Views
Esercitazioni. Software. Textpad ( editor di testo) Arlequin (Pacchetto per genetica di popolazioni) Past (analisi varie). Esercitazioni: Contenuti. Stima parametri Intra-popolazione ( MtDNA , Y Chr.) Stima parametri demografici ( MtDNA )
E N D
Software • Textpad (editor di testo) • Arlequin (Pacchetto per genetica di popolazioni) • Past (analisi varie)
Esercitazioni: Contenuti • Stima parametri Intra-popolazione(MtDNA, Y Chr.) • Stima parametri demografici (MtDNA) • Stima parametri Inter-popolazione (MtDNA, Y Chr.) • Rappresentazioni grafiche (PAST) (MtDNA, Y Chr.)
Flusso genico differenziale Pigmei Bantu • PIGMEI • Cacciatori raccoglitori • Piccole dimensioni • Bassa taglia effettiva • Struttura sociale variabile • BANTU • Agricoltori • Grandi dimensioni • Alta taglia effettiva • Patrilocali • Poliginia
Flusso genico differenziale Pigmei Bantu <5000 BP Areale di distribuzione delle popolazioni Pigmee Flusso genico elevato tra popolazioni Pigmee
Flusso genico differenziale Pigmei Bantu 5000 – 3000 BP Areale di distribuzione delle popolazioni Pigmee Origine espansione Bantu Frammentazione dell’areale dei Pigmei Diminuzione del flusso genico tra i Pigmei
Flusso genico differenziale Pigmei Bantu Cavalli Sforza
Flusso genico differenziale Pigmei Bantu L’ipotesi
Flusso genico differenziale Pigmei Bantu Impedimenti di natura socioculturale Pigmei Bantu La donna Pigmea va a vivere insieme al marito Bantu. Nel caso di decesso o divorzio la donna Pigmea torna al suo villaggio portando con se i figli.
Flusso genico differenziale Pigmei Bantu Valutare la presenza di questo pattern attraverso gli effetti sulla variabilità genetica Variabilità interna PIGMEI BANTU Variabilità inter-popolazione Parametri demografici mtDNA • Bantu segnali di espansione • Pigmei segnali di stazionarietà • mtDNA diversità più marcata tra Bantu e Pigmei • Y chr Diversità meno marcata tra Bantu e Pigmei Y chr
Flusso genico differenziale Pigmei Bantu • DNA mitocondriale (HVR1) • Cromosoma Y (6 STR) PIGMEI Babinga Baka Bakola Biaka Mbenzele BANTU Bakaka Bassa Bateke Ewondo Ngoumba
Arlequin Arlequin è un pacchetto di software per analisi che fornisce all’utente di genetica di popolazione un gran numero di metodi di base e test statistici, al fine di estrarre informazioni sulle caratteristiche genetiche e demografiche di una raccolta di campioni di popolazione.
Settaggio e preparazione file Arlequin [Profile] NbSamples=1 DataType=STANDARD # - {DNA, RFLP, MICROSAT, STANDARD, FREQUENCY} GenotypicData=0 # - {0, 1} GameticPhase=1 # - {0, 1} LocusSeparator=WHITESPACE # - {TAB, WHITESPACE, NONE} RecessiveData=0 # - {0, 1} MissingData='?' # A single character specifying missing data # Some advanced settings the experienced user can uncomment # Frequency= ABS # - {ABS, REL} # FrequencyThreshold= 1.0e-5 # - (Any real number, usually between 1.0e-7 and 1.e-3) # EpsilonValue= 1.0e-7 # - (Any real number, usually between 1.0e-12 and 1.0e-5) [Data] [[Samples]] SampleName="Name of Population number 1" SampleSize= 6 #Fictive number, but must match the sume of haplotype frequencies given below SampleData= { #Example of a sample consisiting of haplotypic data (2 haplotypes, 2 loci): h1 2 TC h2 4 GT }
Arlequin: Variabilità Intra-Popolazione(MtDNA) S: Numberofpolymorphicsites (numero di siti polimorfi) Numero di posizioni dove è presente una mutazione (SNP). Relazionando questo numero alla lunghezza della sequenza considerata si ha un’idea della variabilità nucleotidica (Nucleotide diversity) H: Numberof Haplotypes (numero di aplotipi diversi) Il numero di aplotipi diversi trovati nella popolazione HD: Haplotype diversity (Gene diversity) La probabilità che due aplotipi (alleli) presi a caso all’interno del pool siano diversi. n= numero di individui K= numero diverso di aplotipi P= frequenza dell’i-esimo aplotipo Permette di fare confronti dal momento che tiene in considerazione la taglia del campione (N)
Arlequin: Variabilità Intra-Popolazione(MtDNA) MNPD: Meannumberofpaiwisedifferences(numero medio di differenze a coppie) Numero di differenze ,al livello di sequenze, tra tutti gli individui della popolazione confrontati a coppie. k= il numero di differenze tra le sequenze generiche i e j n= numero di sequenze nel campione n(n-1)/2=numero di confronti totale • AMOVA: Analysis of Molecular Variance • Analisi per valutare il grado di strutturazione delle popolazioni. • Un analisi gerarchica della varianza basata sulle frequenze geniche e le differenze tra aplotipi: • La varianza è poi suddivisa in componenti relative a: • Diversità all’interno delle popolazioni • Diversità tra popolazioni all’interno dei gruppi • Diversità tra gruppi
Arlequin: Variabilità Intra-Popolazione(Cromosoma Y) h, Hd, MNPD, AMOVA S: Numberofalleles(numero di alleli) Numero di alleli per ogni locus R: Allelicrange(rangeallelico) Il range di alleli differenti per ogni locus Garza-Williamson index (G-W) Indicesensibile a recenticollidibottiglia k=numero di alleli in un dato locus R=rangeallelico Valori bassi di G-W: collo di bottiglia Valori prossimi a 1 di G-W: popolazione stazionaria
Arlequin: Parametri demografici (mtDNA) Le variazioni della taglia effettiva di una popolazione nel tempo Test di selezione basati sul confronto tra i vari stimatori del parametro =4Nµ (2Nµ per i sistemi aploidi). MtDNA e Cromosoma Y non soggetti a selezione quindi i test stimano gli effetti della demografia sulla struttura genetica delle popolazioni (Hom): una stima che si ottiene dall’omozigosità osservata (S): una stima che si ottiene dal numero osservato di siti segreganti (k): una stima che si ottiene dal numero osservato di alleli (π): una stima che si ottiene dal numero medio di differenze a coppie • Non tutti i metodi sono utilizzabili con i diversi marcatori • In definitiva tutti questi metodi dovrebbero dare lo stesso risultato • Dal momento che ogni metodo fa delle assunzioni a priori e differenze nella stima possono essere interpretate come una violazione di tali assunzioni
Arlequin: Parametri demografici (mtDNA) TAJIMA’S D Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA Tante mutazioni di cui poche condivise tra aplotipi diversi D>0 Selezione bilanciante o Espansione demografica Poche mutazioni di cui molte condivise tra aplotipi diversi D<0 Neutralità selettiva o Stazionarietà La significatività è calcolata tramite simulazioni di popolazioni in equilibrio. Il P-Value è la probabilità di ottenere valori di D minori o uguali all’osservato.
Arlequin: Parametri demografici (mtDNA) Espansione Stazionarietà Stazionarietà P-Value del D è calcolato attraverso un approccio di simulazione che fornisce la probabilità di ottenere valori di D minori o uguali da una popolazione selettivamente neutrale generata a random.
Arlequin: Parametri demografici (mtDNA) Fs di Fu Test basato sul modello a siti infiniti senza ricombinazione quindi adatto per MtDNA Valuta la differenza tra la variabilità osservata e quella attesa secondo un modello di evoluzione neutrale. Si calcola prima la probabilità (S’) di osservare un campione neutrale con un numero di alleli minore o uguale al valore osservato, dato il numero di differenze a coppie (stima di ) Fs positivo: il numero di alleli minore rispetto all’atteso selezione positiva o bottleneck recente Fs negativo: il numero di alleli maggiore rispetto all’atteso selezione bilanciante o espansione demografica Fs vicino allo zero: assunzioni modello rispettate Neutralità selettiva o popolazione stazionaria Anche per Fs di Fu la significatività è calcolata tramite simulazioni di popolazioni in equilibrio. Il P-Value è la probabilità di ottenere valori di Fs minori o uguali all’osservato.
Arlequin: Parametri demografici (mtDNA) Mismatchdistribution La distribuzione delle differenze a coppie tra sequenze La forma della distribuzione fornisce indizi sulla storia demografica della popolazione
Arlequin: Parametri demografici (mtDNA) RAGGEDNESS: indice che permette di distinguere tra i due tipi di distribuzione Robustezza (raggedness) r, somma dei quadrati delle differenze tra due picchi vicini. r più basso per le distribuzioni a campana r <0,03 per i dati di sequenza, indica un’espansione della popolazione nel passato.
Arlequin:Variabilità inter-popolazione Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio HardyWeinberg). Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il randommating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità. Fst Parametro di distanza genetica che misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni. Fst = Vp/ p (1-p) dove p e Vp sono la media e la varianza delle frequenze geniche tra le due subpopolazioni; Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni 0<Fst<1
Arlequin:Variabilità inter-popolazione DISTANZA GENETICA Fst TRA DUE POPOLAZIONI AD UN LOCUS CON DUE ALLELI Varianza =(X-Xm)2/N La devianza/N Devianza = (X- Xm)2 Somma degli scarti al quadrato scarto: un valore X sottratto rispetto alla media aritmetica Fst= Vp / P (1-P) p = frequenza allelica P = frequenza allelica media 1 e 2 = popolazione 1 e 2 (p1-P)2 + (p2-P)2 1 x Fst = P (1-P) 2
Arlequin:Variabilità inter-popolazione ESEMPIO DI CALCOLO DELLA DISTANZA GENETICA Fst POP 2 POP 2 POP 1 POP 1 p2=0,7 p2=0,9 p1=0,3 p1=0,1 P=0,5 P=0,5 (0,1-0,5)2 + (0,9-0,5)2 (0,3-0,5)2 + (0,7-0,5)2 0,64 0,16 = Fst = = = 2 x [0,5 x (1-0,5)] 2 x [0,5 x (1-0,5)]
Arlequin:Variabilità inter-popolazione Rst: Misura della distanza genetica equivalente all’Fst ma adattata ai loci microsatellite. Assume un modello stepwise ad alto tasso di mutazione. Ax-yi = Numero di ripetizioni per il locus i nelle popolazioni x e y
Arlequin:Variabilità inter-popolazione • Bisogna valutare se il valore ottenuto sia significativo, quindi se la suddivisione della popolazione è maggiore di quella attesa per caso • Bisogna escludere che: • La popolazione non sia differenziata • Le differenze tra le frequenze alleliche siano dovute al campionamento • L’accoppiamento sia casuale • Il test è realizzato mediante permutazioni o Monte-Carlomethod (si usano numeri casuali).
Arlequin:Variabilità inter-popolazione MONTE-CARLO PERMUTATION TEST I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività. Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%.
Past: rappresentazioni grafiche ANALISI MULTIVARIATE CLUSTER ANALISYS Seleziona e raggruppa elementi omogenei all’interno di un set di dati. Esistono diversi metodi (algoritmi) suddivisi principalmente in due categorie Clustering partitivo: L’appartenenza ad un gruppo è definita dalla distanza da un punto rappresentativo del cluster (centriodeetc..) avendo determinato a priori il numero di cluster (K-means) Clustering gerarchico: Si costruisce una gerarchia di partizioni caratterizzata da un numero decrescente di cluster (UPGMA, Neighbour joining etc..)
Past: rappresentazioni grafiche Una matrice di distanza genetiche ha tante dimensioni quante sono le popolazioni quindi è impossibile da visualizzare graficamente a meno che non si riassume l’informazione in modo che possa essere rappresentata in due dimensioni. MDS (Multidimensionalscaling) costrizione delle distanze genetiche in uno spazio a due dimensioni con la minor perdita di informazione possibile (minore distorsione possibile) La distorsione è rappresentata dal parametro stress
Flusso differenziale Pigmei Bantu RISULTATI HD mtDNA HD Y chromosome
Flusso differenziale Pigmei Bantu RISULTATI MNPD mtDNA MNPD Y chromosome