190 likes | 360 Views
Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data Petr Koutecký & Jiří Košnar, 2011. Dominantní data. recesivní alela (bez projevu) + dominantní alela(y) nelze rozlišit heterozygoty pro recesivní alelu typicky bialelická data ve formátu 0 / 1 proužky na gelu
E N D
Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data Petr Koutecký & Jiří Košnar, 2011
Dominantní data • recesivní alela (bez projevu) + dominantní alela(y) • nelze rozlišit heterozygoty pro recesivní alelu • typicky bialelická data ve formátu 0 / 1 • proužky na gelu AA proužek přítomen 1 Aa proužek přítomen 1 aa proužek nepřítomen 0 • výsledek „fingerprintingových“ metod • RAPD, ISSR, AFLP • u složitějších pattern lze takto redukovat i kodominantní data (mikrosatelity, isozymy)
Charakteristiky lokusů • Lokus = pozice na gelu = fragment určité délky • Polymorfní lokusy • podíl = počet polymorních / počet všech • někdy počítán lokus jako polymorfní jen pokud f(1) < 95% • opakem jsou fixované lokusy f(1) > 95% nebo vzácné lokusy f(1) < 5% • Privátní (diagnostické) lokusy • přítomné pouze ve skupině / populaci / taxonu • nemusí být u všech jedinců • Privátní fixované lokusy • privátní lokusy přítomné u všech jedinců dané skupiny • Sdílené lokusy • s jinou skupinou / skupinami
Vnitropopulační variabilita • Odhad frekvencí alel • pouze 2 alely, odhad založen na frekvenci recesivní alely a předpokladu HW rovnováhy p + q = 1 p2 + 2pq + q2 = 1 p = 1 – q většinou vyřazovány lokusy s f(0) < 1 – 3/N • Shanonův index kde pi je frekvence proužku v lokusu i • Gene diversity • očekávaná heterozygozita za předpokladu HW rovnováhy kde pi je frekvence proužku v lokusu i
Koeficienty (ne)podobnosti • pouze koeficienty neuvažující negativní shodu • vyšší pravděpodobnost nehomologie v případě absence PCR produktu (proužku) Jaccardův koeficient (podobnost) (distance) Dice coefficient (= Nei-Li coefficient) (podobnost) (distance)
Koeficienty (ne)podobnosti • výsledkem je matice (ne)podobností • analýza různými metodami: • analýza hlavních koordinát (PCoA) • shlukové analýzy (např. UPGMA) • neighbour-joining (strom) • neighbour-net (síť) UPGMA, Ren et al. 2011 NJ tree, Hilpold et al. 2011 PCoA, Jiménez et al. 2009
Neighbour-net Bryant & Moulton 2004 Huson & Bryant 2006 obě v Molecular Biology and Evolution • Jeden z typů fylogenetických sítí • Obecně pro distanční matice, ale nejčastěji AFLP data • síť zohledňuje nejistotu v podobnosti / příbuznosti • každá „čára“ (edge) zobrazuje rozdělení (split) dat na 2 sku-piny, rovnoběžné edges zobrazují tentýž split • možné spojení se 2 různýmisousedy se projeví jako „box“ • není to fylogeneze, „interní“ bodynejsou hypotetičtí předci! • délky odpovídají pův. distanci, poměr délek „síle“ konfliktních signálů Rusell et al. 2011 Bot J. Linn. Soc.
Mantelův test • testuje podobnost (korelaci) dvou matic • typicky matice genetické a geografické vzdálenosti • prostorová autokorelace • permutační test: • výpočet korelačního koeficientu pro odpovídající si pozice v matici 1 a 2 („přes jedince“) • testová statistika RM • permutace (náhodné zpřeházení) jedné z matic • výpočet nového korelačního koeficientu • to celé mnohokrát (≥ 1000×) • signifikance = podíl hodnot vyšších než původní výsledek, větš. Bonferroniho korekce
Mantelův test • často se počítá pro jednotlivé třídy vzdálenosti • detekovatelné meziregionální rozdíly apod. paradoxní negativní korelace: 3 regiony, kde 2 krajní si byly podobnější než krajní a střední klesající podobnost s rostoucí vzdáleností černě – průkazně odlišné od 0 bíle – není průkazně odlišné od 0 Gabrielsen et al. 1997 Saxifraga oppositifolia Norsko+Svalbard, RAPD
Moranovo I • koeficient pro výpočet prostorové korelace • Mantel test – jednosměrná korelace (porovnání dvou distancí, hodnoty distancí jsou jedna proměnná (vektor)) • Moran‘s I – bere v úvahu podobnost v ploše nebo dokonce v prostoru (matice) • srovnává podobnost 2 bodů v dané proměnné, kterou váží váhou odvozenou z geografické pozice, suma přes všechny body • I ~ -1 max. negativní autokorelace • I = -1/(n-1) náhodné rozmístění • I ~ +1 max. pozitivní autokorelace • …ale velmi různé aplikace = způsobystanovování podobnosti i vah
Moranovo I • aplikace na genetická data • např. program SGS • rozdělí vzdálenosti mezi vzorky do zadaného počtu stejně širokých intervalů • genetická podobnost – přítomnost dané alely u kodominantních dat (homozygot = 1, heterozygot = 0.5, nemá = 0), resp. přítomnost daného multilokusového genotypu (haplotypu) u dominantních dat (přítomen = 1, jinak 0) • váha – „po intervalech“, pokud vzorky padnou do stejného intervalu = 1, jinak = 0 • pro každý pár vzorků dosazení do vzorce (viz např. manuál k programu), výpočet korelace • permutační test
AMOVA • Analysis of Molecular Variance • metoda pro studium populační struktury • rozdělení variability na složky mezi jedinci, populacemi, skupinami populací,… (analogie ANOVA) • matice vzdáleností mezi jedinci • a priori definovaná populační struktura (populace, skupiny populací (regiony), příp. další úrovně) • výpočet variability (sum of squared deviations) pro jednotlivé úrovně, přepočet na podíl na celkové variabilitě (variance components) se zohledněním d.f. • výpočet ΦST (analogické k FST) srovnáním složek variability jednotlivých úrovní • permutační testy
AMOVA • program Arlequin rozdělení variability na jednotlivé složky fixační indexy (ΦST) mezi populacemi celkem mezi populacemi ve skupině mezi skupinami permutační testy
Bayesian clustering • hledání nejpravděpodobnějšího rozdělení jedinců do k skupin • distance-based approach • vztahy mezi jedinci jsou popsány maticí vzdáleností • matici reprezentujeme nějakou vhodnou analytickou metodou (shluková analýza, NJ strom nebo síť, PCoA…) • vymezení skupin ± subjektivní, obtížné / nemožné testovat vs. • model-based approach • jedinci jsou náhodným výběrem z nějakého základního souboru • základní soubor je statisticky popsatelný několika parametry (frekvence alel, počet skupin,…) • odhadujeme tyto parametry a jim odpovídající pravděpodobnost daného rozdělení jedinců do skupin • hledání nejpravděpodobnější varianty, statistické testování
Bayesian clustering • hledání nejpravděpodobnějšího rozdělení jedinců do k skupin • k není dopředu známo • uvnitř skupin se předpokládá: • Hardy-Weinbergova rovnováha • nezávislost lokusů (linkage equilibrium) • v podstatě se hledá rozdělení do skupin tak, aby data ve výsledku co nejvíce splňovala tyto předpoklady • … a aby jedinci uvnitř skupin si byli co nejpodobnější (takové řešení je nejpravděpodobnější)
Bayesian clustering • několik programů • podobná základní logika, liší se matematické „detaily“ • STRUCTURE • BAPS (Bayesian Analysis of Population Structure) • další (např. Geneland, NewHybrids,…) • několik modelů různé složitosti • každý jedinec geneticky náleží do právě jedné populace • genotyp jedince může být směsí alel pocházejících z různých populací (admixture model) • modely beroucí v úvahu geografický původ jedinců apod. • modely beroucí v úvahu vazbu (linkage)mezi lokusy
Bayesian clustering Typické výstupy • počet skupin • rozdělení jedinců to skupin • podíl skupin v genotypu každého jedince Variabilita druhu Vellozia gigantea, ISSR, STRUCTURE, Lousada et al. 2011
Software • populačně genetické programy – viz přednáška kodominantní data (většinou umí pracovat i s dominantními) (PopGene, Genepop, TFPGA,…) • GenAlEx (Genetic Analysis using Excel) http://www.anu.edu.au/BoZo/GenAlEx/ sada maker v Excelu, většina populačně genetických analýz, Mantel test, matice vzdáleností, export do formátů jiných programů • Arlequin http://cmpg.unibe.ch/software/arlequin3/ populační genetika obecně, AMOVA, pairwaise-FST • Hickoryhttp://darwin.eeb.uconn.edu/hickory/hickory.html pravděpodobností (Bayes) odhad frekvencí alel a F-statistik • AFLPdat http://www.nhm.uio.no/english/research/ncb/aflpdat/ sada funkcí pro R (nikoliv R-package) – konverze 0/1 matice v .txt do různých formátů, DW index, gene diversity a pár dalších • SplitsTree4http://www.splitstree.org/ fylogenetické sítě
Software • GSG (Spatial Genetics Software) http://software.bfh-inst2.de/download3.html výpočet prostorové statistiky (autokorelace apod.) z genetických dat • SpaGeDi (Spatial Pattern Analysis of Genetic Diversity) http://ebe.ulb.ac.be/ebe/Software.html • BAPS (Bayesian Analysis of Population Structure) http://web.abo.fi/fak/mnf/mate/jc/software/baps.html odhad populační struktury (Bayesian clustering) • STRUCTUREhttp://pritch.bsd.uchicago.edu/structure.html odhad populační struktury (Bayesian clustering) • na stránce odkazy na software pro tvorbu grafických výstupů • NewHybridshttp://ib.berkeley.edu/labs/slatkin/eriq/software/software.htm odhad frekvencí alel a původu jedinců u předpokládané hybridizace (F1, F2, zpětní kříženci, …) na základě Bayesian clustering