1 / 55

Metody molekulární biologie v ekologii a systematice rostlin 3 . Populační genetika (s.l.)

Metody molekulární biologie v ekologii a systematice rostlin 3 . Populační genetika (s.l.) Petr Koutecký & Jiří Košnar, 201 3. Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364. Populace. Definic více, žádná ideální

devaki
Download Presentation

Metody molekulární biologie v ekologii a systematice rostlin 3 . Populační genetika (s.l.)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metody molekulární biologie v ekologii a systematice rostlin 3. Populační genetika (s.l.) Petr Koutecký & Jiří Košnar, 2013 Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364

  2. Populace • Definic více, žádná ideální • Pokus o praktickou definici: Soubor jedinců daného taxonu (druhu, skupiny,…), žijících na určitém místě, mezi kterými alespoň teoreticky může docházet k výměně genetické informace při rozmnožování (resp. nejsou zde žádné zjevné bariéry)

  3. Populace Specifika rostlin • vegetativní (klonální) rozmnožování • v extrémním případě celá populace = jeden jedinec • dlouhodobá (potenciálně nekonečná) existence genotypu • přisedlé organismy, při rozmnožování (resp. cizosprášení) závislé na vnějších činitelích • hmyz, vítr, voda,… • roznos pylu největší v blízkém okolí, se vzdáleností klesá • totéž platí pro roznos semen • za určitou vzdáleností je příspěvek daného jedince (resp. šance účastnit se rozmnožování) minimální i ve zcela stejnorodé populaci bez zjevných bariér • isolation by distance

  4. Lokus, alela, atd. Lokus • konkrétní pozice v genomu (dané místo na chromosomu, konkrétní sekvence,…); v praxi také konkrétní pozice na gelu Gen • funkční sekvence DNA (kódující protein, RNA,…) • někdy pojem používán šířeji, ve smyslu lokus Alela • varianta sekvence v daném lokusu; zprostředkovaně varianta s jinou velikostí, mobilitou na gelu, morfologickým projevem,… • dominantní data – dvě alely, nelze poznat heterozygoty; kodominantní data – 2 nebo víc alel, lze odlišit heterozygoty Genotyp • soubor alel daného jedince (jedno- vs. multilokusový)

  5. Lokus, alela - dominantní data • Lokus = daná pozice (= délka fragmentu) na gelu • typicky bialelická data ve formátu 0 / 1 • přítomnost / nepřítomnost proužku na gelu • nelze rozlišit heterozygoty pro recesivní alelu AA fragment přítomen 1 Aa fragment přítomen 1 aa bez projevu (fragment 0 nepřítomen) • výsledek „fingerprintingových“ metod • RAPD, ISSR, AFLP • u složitějších pattern lze takto redukovat i kodominantní data (mikrosatelity, isozymy)

  6. Popis variability populace / jedince • Počet alel (A) • pro každý lokus, průměr přes všechny lokusy (kodom. data) • Allelic richnes • průměrný počet alel korigovaný na počet vzorků / populací (bootstrap apod.) (kodominatní data) • Podíl polymorfních lokusů (P) • podíl = počet polymorních / počet všech • někdy počítán lokus jako polymorfní jen pokud je frekvence nejčastější alely <95%, resp. f(1) < 95% (dominatní data) • fixované alely / lokusy f > 95%, vzácné alely / lokusy f < 5% (u kodominatních dat mluvíme o alelách, u dominantních přímo o lokusech, tj. stav = 1 = přítomnost)

  7. Popis variability populace / jedince • Privátní (diagnostické) alely / lokusy • přítomné pouze v dané skupině (populaci, taxonu,…) • nemusí být u všech jedinců • Fixované alely / lokusy • přítomné u všech jedinců dané skupiny • Privátní fixované alely / lokusy • přítomné pouze u dané skupiny, a to u všech jedinců • ideální rozlišovací „znak“ • Sdílené alely / lokusy • společné s jinou skupinou / skupinami

  8. Popis variability populace / jedince • Shanonův index • diverzitní index, podobně jako v ekologii pi = frekvence alely i; pro 1 lokus • u kodominantních dat počítáno pro jednotlivé lokusy, následně průměr přes všechny lokusy • u dominantních dat je i frekvence dominantní „alely“, suma přes všechny lokusy

  9. ni počet ramet daného genotypu N celkový počet ramet Parks & Werth 1993, Am. J. Bot. Arnaoud-Haound et al. 2005, J. Heredity Klonalita v populaci • Clonal diversity G / N kde G je počet genotypů, N počet jedinců R = (G – 1) / (N – 1) pro 1 klon pak vyjde 0 • Simpsonův index • λ je pravděpodobnost, že 2 ramety budou mít stejný genotyp • D = 0 pro uniformní populaci; D = 1 pokud každá rameta je jiný genotyp • Statistika Pgen (Psex) • pro klony, udává pravděpodobnost, že daný genotyp vznikl opakovaně pohlavním rozmnožováním • počítáno z frekvencí alel a polymorfních lokusů a počtu vzorků

  10. Heterozygosita Pozorovaná heterozygozita • nemá smysl pro dominantní data • pro jeden lokus i, j = alely, N = počet jedinců • pro více lokusů N počet jedinců m počet lokusů Hij heterozygotnost jedince i (0 nebo 1) pro lokus j

  11. ♂p q ♀ p q p q p2 p q q2 Hardy-Weinbergova rovnováha • užitečný nulový model • při nekonečné populaci, náhodném páření, absenci selekce, migrace,… … závisí frekvence genotypů přímona frekvencích alel • pro diploidyadvě alely A, a, které mají frekvence p, q frekv. (AA) = p2 frekv. (Aa) = 2pq frekv. (aa) = q2 p + q = 1 p2 + 2pq + q2 = 1 • a to při libovolné frekvenci alel • tato rovnováha se vytvoří po jednégeneraci náhodného páření (atd.) • v dalších generacích je stabilní

  12. Hardy-Weinbergova rovnováha • evoluce = změny ve frekvenci alel • odchylky od HW rovnováhy • selekce → tu se ale většinou „snažíme“ nevidět (selekčně neutrální markery) • genetický drift • migrace • mutace (vznik nových alel)

  13. Genetický drift • proces náhodných změn frekvence alel v populaci • způsoben konečnou velikostí populace – Wright-Fisherův model • populace produkuje ∞ gamet • do další generace projde ale jen 2N gamet (N = velikost populace) • frekvence alel v náhodném výběru 2Ngamet nemusí být stejné jako výchozífrekvence (sampling error) • zastoupení alel mezi generacemi se náhodně mění • časem fixacenebo ztrátaalely → snížení diverzity a heterozygozity • intenzita závisí na velikost populace

  14. Efektivní velikost populace • velikost ideální populace (náhodné páření atd.), která jeví stejnou intenzitu gen. driftu jako reálná populace • většinou platí Ne ≤ N • Ne lze chápat jako počet jedinců, kteří svými gametami přispějí ke vzniku další generace (= ne všichni) • typické příčiny snížené Ne • nenáhodné páření (včetně isolation by distance) • fluktuace velikosti populace • nevyrovnaný poměr pohlaví (typicky u živočichů, u rostlin má smysl uvažovat u dvoudomých druhů)

  15. Heterozygosita Očekávaná heterozygozita = gene diversity (D) • předpoklad: populace v Hardy-Weinbergově rovnováze • lze počítat i pro dominantní data • pro jeden lokus resp. • pro více lokusů; pravděpodobnost, že jedinec je pro danou alelu homozygot = frekvence homozygotů pro alelu korekce na malé vzorky (N < 50) p frekvence alely i,k i-tá alela z k alel v lokusu l,m lokus l z celkem m lokusů N počet jedinců

  16. Fixační indexy • obvykle 3 úrovně variability • celková populace (celý druh) • rozdíly mezi subpopulacemi(= dílčími populacemi) • individuální variabilita uvnitř subpopulací • lze zavést i další (region sdružující část subpopulací) • většinou se uvažují pouze diploidi • pro vyšší ploidie nejsou výpočty obvykle k dispozici • nemá smysl srovnávat variabilitu (počet alel, polymorfní lokusy, heterozygosita,…) mezi ploidiemi

  17. Fixační indexy (F-statistika) • inbreeding • diferenciace do subpopulací (drift) • celkový • měří rozdíl heterozygotnosti oproti HW rovnováze HIpozorovaná heterozygozita uvnitř subpopulace = Ho HS očekávaná heterozygozita uvnitř subpopulace (z frekvencí alel v subspopulaci) = He HTočekávaná heterozygozita v celkové populaci (z průměrných frekvencí alel přes všechny subpopulace) (1 - FIT) = (1 – FIS) * (1 - FST) • při HW rovnováze všechny koeficienty = 0, lze statisticky testovat

  18. Fixační indexy FIS měří úbytek heterozygotů uvnitř subpopulace vlivem inbreedingu (příbuzenského křížení) … případně dalších odchylky (přebytek heterozygotů vlivem pozitivní selekce apod.) • rozsah hodnot <-1; 1> -1 pouze heterozygoti 0 HW rovnováha +1 pouze homozygoti • pro jednotlivé subpopulace; vážený průměr přes subspopulace

  19. HS průměrná očekávaná heterozygozita (He) uvnitř subpopulací HT , kde je průměr přes všechny subpopulace Fixační indexy FST měří vliv diferenciace na subpopulace • rozdělení na subpopulace → drift → postupná fixace alel (ztráta heterozygotnosti) v subpopulacích, ačkoliv průměrné celkové frekvence alel jsou stabilní GSTcoefficient of gene differentiation,zobecnění FST(FST původně definováno pro bialelický lokus, GST pro multialelický) • rozsah hodnot <0; 1>, stupeň diferenciace: < 0.05 malá 0.15-0.25 velká 0.05-0.15 střední > 0.25 velmi velká

  20. závisí na (vnitropopulační) variabilitě lokusu • nebere v úvahu identitu alel, není to distance • pozor na příliš variabilní lokusy ! HS~1, GST~0 HS = 0, GST = 1 Fixační indexy • FST / GST je mírou diferenciace subpopulací: žádná diferenciace velká diferenciace

  21. Fixační indexy • hodnoty FST závisí v reálných populacích také na migraci mezi subpopulacemi, rychlosti mutací,… • obvykle složitější vzorce • island model, stepping stone model, isolation by distance • specializovaný software • existují odhady (modely) F-statistiky i pro dominatní data (např. program Hickory) • moc to nefunguje • hodnoty různým způsobem vypočtených koeficientů nejsou zcela srovnatelné • pairwise FST – matice koeficientů pro každý pár subpopulací • je mírou genetické vzdálenosti (distance)

  22. AMOVA • Analysis of Molecular Variance • metoda pro studium populační struktury • rozdělení variability na složky mezi jedinci, populacemi, skupinami populací,… (analogie ANOVA) • matice vzdáleností (nepodobností) mezi jedinci, různé vzorce podle charakteru dat (kodominantní, dominantní, sekvence…) • a priori definovaná populační struktura (populace, skupiny populací (regiony), příp. další úrovně) • výpočet variability (sum of squared deviations) pro jednotlivé úrovně, přepočet na podíl na celkové variabilitě (variance components) se zohledněním d.f. • výpočet ΦST (AMOVA-based FST) srovnáním složek variability jednotlivých úrovní • permutační testy

  23. AMOVA • program Arlequin rozdělení variability na jednotlivé složky fixační indexy (ΦST) mezi populacemi celkem mezi populacemi ve skupině mezi skupinami permutační testy

  24. Linkage disequilibrium • nenáhodná segregace alel 2 různých lokusů • některé kombinace častější / méně časté než při náhodném párování • výskyt na stejném chromosomu, obvykle blízko sebe (mezi lokusy ± nedochází k rekombinaci) • selekce ve prospěch určitých kombinací • allopolyploidie

  25. Linkage disequilibrium • Pro 2 lokusy s 2 alelami: lokus 2 lokus 1 A2 B2 alela frekv.q1 q2 A1p1x11 x12 p1q1 p1q2 B1p2x21 x22 p2q1 p2q2 D = x11x22 – x12x21 Při rovnováze (není linkage) D = 0 Při náhodném párování

  26. Různé typy dat • většina klasické populační genetiky má smysl pouze pro kodominantní data • pro dominantní data obecně nemají smysl žádné indexy založené na heterozygozitě (klasické FIS, FST,…) • všechny hodnoty mají smysl pouze pro konkrétní studii, konkrétní výsledky (dataset), nelze moc srovnávat • nemá smysl srovnávat hodnoty (byť ze stejných jedinců) založené na různých metodách • nemá smysl porovnávat mezi plodiemi • jiný počet kopií genu v jedinci (= jiná Ne), zásadně jiná dynamika genetického driftu,…

  27. 2 1 t2 t1 Coalescence • Pohled zpět v čase • V populaci existuje v každém okamžiku určitá sada alel • Zastoupení alel se mění (vznikmutacemi; zánik; různá úspěšnostpři přechodu do další generace) • pro každou dvojici alel v danégeneraci někde MRCA – most recent common ancestor) 1 – pro fialovou a tmavomodrou 2 – pro fialovou, tmavomodrou a červenou

  28. t2 t1 Coalescence • původ recentních alel lze zobrazit jako strom • délka větví odpovídá stáří koalescenční události • coalsecence-based FST • koalescenční přístup pro konstrukci fylogenetických stromů • viz později tT – průměrný čas k MRCA (přes všechny dvojice alele) v celkové populaci tS – totéž pro subpopulaci

  29. korekce na malý počet vzorků, analogicky pro populaci yunbiased distance Distance – kodominatní data • Standard genetic distance (Nei) • identita • distance pravděpodobnost, že 2 náhodně vybrané alely z populací x,y budou stejné x,y populace pi frekvence alely i z n alel pravděpodobnost, že 2 náhodně vybrané alely z populace x, resp. y budou stejné

  30. Distance – kodominantní data • Roger’s distance x,y populace pi frekvence alely i z n alel v lokusu j m počet lokusů

  31. Distance – dominantní data • většinou koeficienty neuvažující negativní shodu • vyšší pravděpodobnost nehomologie v případě absence PCR produktu (proužku) • Jaccardův koeficient (podobnost) (distance) • Dice coefficient (= Nei-Li coefficient) (podobnost) (distance) • negativní shoda výjimečně (simple matching, percent similarity; a+d / a+b+c+d)

  32. Distance • výsledkem je matice vzdáleností • analýza hlavních koordinát, PCoA (principal coordinate analysis) = MDS (metric multidimensional scaling) • shluková analýza (cluster analysis) • zejména metoda UPGMA • neighbour-joining (NJ), resp. neighbour-networks

  33. PCoA • ordinační metoda • zobrazení objektů v ordinačním prostoru: • prvních několik os vysvětluje nejvíce variability • Euklidovské vzdálenosti mezi objekty aproximací vzdáleností v původní matici • podobná PCA, ale pro jakékoliv distance (pro euklidovské distance řešení identické s PCA) Mandáková & Münzbergová 2008 Aster amellus, allozymy, diploidi a hexaploidi Ramaya et al. 2010, Frullania asagrayana, SSR

  34. Shluková analýza • obvykle algoritmus UPGMA(unweighted pair-group method using arithmetic averages) • spojení dvou nejpodobnějších objektů v matici • výpočet nové matice s n-1 objekty, skupina jako 1 objekt, počítána průměrná distance k jeho členům • spojení dvou nejpodobnějších objektů • nová matice • … • dendrogram Kaplan & Štěpánek 2003 Potamogeton pusillus allozymy

  35. Neighbour-joining • fenetická metoda (znaky mají stejnou váhu), podobně jako UPGMA • nejčastější metoda na genetické distance • na rozdíl od shlukovacích metod nespojuje nejpodobnější objekty, ale hledá nejkratší strom, délka stromu je počítána z matice distancí

  36. Neighbour-joining C 1. matice distancí 2. hvězdicovitý strom A D B E

  37. C A D B E C A D B E Neighbour-joining 1. matice distancí 2. hvězdicovitý strom 3. pro každou dvojici bodů výpočet délky stromu za předpokladu, že tyto dva body budou vybrány jako nejbližší • vložení dvou hypotetických uzlů • pro testovanou dvojici • pro zbytek atd.

  38. C A D B E Neighbour-joining 1. matice distancí 2. hvězdicovitý strom 3. pro každou dvojici bodů výpočet délky stromu za předpokladu, že tyto dva body budou vybrány jako nejbližší 4. vybrána ta dvojice, pro kterou vyjde nejnižší hodnota celkové délky • nemusí to být nejbližší body 5. výpočet délky větví k vybraným bodům a nové výchozí délky stromu

  39. A D B C E A B E D C A D B E Neighbour-joining C 6. testování zbylých bodů

  40. C A D B E Neighbour-joining 6. testování dvojic zbylých bodů 7. připojení nejbližšího bodu k již existující dvojici 8. výpočet délek větví a celkové délky stromu … a tak pořád dokola … testování kvality stromu, obvykle metoda bootstrap: • náhodné nahrazení znaků • výpočet nového stromu • to celé min. 1000× • % nových stromů, kde shluk z původního stromu je přítomen

  41. Neighbour-joining • výsledkem nezakořeněný strom • délky větví odrážejí původní distance • lze zakořenit, pokud je v analýze nějakýoutgroup Casimiro-Soriguer et al. 2011 Erophaca (Fabaceae), AFLP Hilpold et al. 2011 Centaurea cineraria, AFLP

  42. Neighbour-net Bryant & Moulton 2004 Huson & Bryant 2006 obě v Molecular Biology and Evolution • Jeden z typů fylogenetických sítí • Obecně pro distanční matice, ale nejčastěji AFLP data • síť zohledňuje nejistotu v podobnosti / příbuznosti • každá „čára“ (edge) zobrazuje rozdělení (split) dat na 2 sku-piny, rovnoběžné edges zobrazují tentýž split • možné spojení se 2 různýmisousedy se projeví jako „box“ • není to fylogeneze, „interní“ bodynejsou hypotetičtí předci! • délky odpovídají pův. distanci, poměr délek „síle“ konfliktních signálů Winkler et al. 2012, Mol. Ecol. Saxifraga oppositifolia, AFLP

  43. Neighbour-net • příklad dat s opravdu nejasnou strukturou • prakticky nelze zobrazit v podobě stromu Hörandl & Emadzade 2012 Ranunculus „clade III“ sekvence ITS + cpDNA

  44. Prostorové závislosti / autokorelace • Jak se mění genetická podobnost jedinců / populací v závislosti na jejich vzdálenosti? • Respektive – do jaké vzdálenosti lze ještě považovat jedince / populace za příbuzné • Příbuznost populací na kontinentální škále (migrace v postglaciálu apod.) • Šíření semen / pylu • Jemná genetická struktura populací, isolation by distance,…

  45. Mantelův test Gabrielsen et al. 1997 Saxifraga oppositifolia, RAPD • testuje podobnost (korelaci) dvou matic • matice genetickéa geografickévzdálenosti • třídy vzdálenosti • permutační test: • výpočet korelačního koeficientu pro odpovídající si pozice v matici 1 a 2 („přes jedince“), testová statistika RM • permutace (náhodné zpřeházení) jedné z matic • výpočet nového korelačního koeficientu • to celé mnohokrát (≥ 1000×) • signifikance = podíl hodnot vyšších než původní výsledek, větš. Bonferroniho korekce RM > 0 log stupnice RM ~ 0 (neprůkazné) RM < 0

  46. Moranovo I • koeficient pro výpočet prostorové korelace • Mantel test – jednosměrná korelace (porovnání dvou distancí) • Moran’s I – bere v úvahu podobnost v ploše nebo dokonce v prostoru (matice) • srovnává podobnost 2 bodů v hodnotě dané proměnné, kterou váží váhou odvozenou z geografické pozice, suma přes všechny body I ~ -1 max. negativní autokorelace I = -1/(n-1) náhodné rozmístění I ~ +1 max. pozitivní autokorelace • …ale velmi různé aplikace = způsobystanovování podobnosti i vah

  47. Moranovo I • aplikace na genetická data • binární proměnná – např. výskyt jedinců jedné / druhé ploidie • genet. podobnost - např. software SGS (spatial genetic structure) • rozdělí vzdálenosti mezi vzorky do zadaného počtu stejně širokých intervalů • genetická podobnost – přítomnost dané alely u kodominantních dat (homozygot = 1, heterozygot = 0.5, nemá = 0), resp. přítomnost daného multilokusového genotypu (haplotypu) u dominantních dat (přítomen = 1, jinak 0) • váha – „po intervalech“, pokud vzorky padnou do stejného intervalu = 1, jinak = 0 • pro každý pár vzorků dosazení do vzorce (viz např. manuál k programu), výpočet korelace • permutační test

  48. kinship coeff. konfidenční interval Kinship coefficient apod. Hardy & Vekemans 1999, Heredity 83: 145-154 Hardy 2003, Mol. Ecol. 12: 1577–1588 • pravděpodobnost, že 2 alely náhodně vybrané ze 2 jedinců budou stejné (IDB, identical by descent) (0-0.25) • v souvislosti s populačními daty – genetická podobnost dvou jedinců ve srovnání s průměrem celé populace (IIS, identity in state) (průměr 0, + i -) • Specializovaný software (např. SpaGeDi) • nelze pro dané 2 jedince • průměr z mnoha párů • počítáno pro vzdálenostnítřídy (v rámci třídy očeká-váme stejnou příbuznost) • permutační testy proti 0 Jump et al. 2009, Fumana thymifolia, AFLP

  49. Bayesian clustering • hledání nejpravděpodobnějšího rozdělení jedinců do k skupin • distance-based approach • vztahy mezi jedinci jsou popsány maticí vzdáleností • matici reprezentujeme nějakou vhodnou analytickou metodou (shluková analýza, NJ strom nebo síť, PCoA…) • vymezení skupin ± subjektivní, obtížné / nemožné testovat vs. • model-based approach • jedinci jsou náhodným výběrem z nějakého základního souboru • základní soubor je statisticky popsatelný několika parametry (frekvence alel, počet skupin,…) • odhadujeme tyto parametry a jim odpovídající pravděpodobnost daného rozdělení jedinců do skupin • hledání nejpravděpodobnější varianty, statistické testování

  50. Bayesian clustering • hledání nejpravděpodobnějšího rozdělení jedinců do k skupin • k není dopředu známo • uvnitř skupin se předpokládá: • Hardy-Weinbergova rovnováha • nezávislost lokusů (linkage equilibrium) • v podstatě se hledá rozdělení do skupin tak, aby data ve výsledku co nejvíce splňovala tyto předpoklady • … a aby jedinci uvnitř skupin si byli co nejpodobnější (takové řešení je nejpravděpodobnější)

More Related