470 likes | 665 Views
Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část Petr Koutecký & Jiří Košnar, 201 3. Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364. Historie, princip sekvenování DNA. Sekvenování DNA
E N D
Metody molekulární biologie v ekologii a systematice rostlin 5. Sekvenování DNA – 1. část Petr Koutecký & Jiří Košnar, 2013 Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364
Historie, princip sekvenování DNA • Sekvenování DNA řešení otázek: • fylogeneze, na jakékoli tax. úrovni • taxonomie na úrovni druhů, příp. vnitrodruhových taxonů • hybridizace • fylogeografie • molekulární identifikace - barcoding předpoklady: • musíme znát primery na PCR amplifikaci zvoleného úseku • musíme nalézt vhodně variabilní úsek • metodicky často ne příliš náročné, stačí rel. málo genomové DNA • dost peněz (rel. drahé)
Princip sekvenování DNA • Metody sekvenování DNA • chain terminator method: sekvenování syntézou DNA • dideoxynukleotidy (ddNTPs): nemají 3´-OH skupinu pro další prodlužování řetězce DNA, proto terminují Sanger &Coulson, 1975 • ddNTPs smíchané s převládajícími dNTPs • sekvenační reakce – DNA polymeráza, pouze 1 primer, podobné PCR (cycle sequencing), ale fragmenty přibývají lineárně! • při inkorporaci značeného ddNTP - terminace • vznikají různě dlouhé fragmenty – ELFO denaturační PAA gel, kapilární ELFO se sekv. polymerem A původně 4 reakce (každý nukleotid zvlášť) B dye termination: ddNTPs odlišně fluorescenčně značené, sekvenační reakce probíhá najednou B A
Princip sekvenování DNA • Jak probíhá zpracování vzorku: • je nutné mít PCR produkt úseku, který chceme sekvenovat: • bez nespecifických PCR produktů • dostatečně koncentrovaný PCR produkt lze přímo sekvenovat • u slabších bandů je třeba odstranit neinkorporované primery a dNTPs(sekvenace je jednosměrná → nutný řádový nadbytek 1 primeru; musí být přesně vyvážený poměr dNTP a ddNTP) • kitová purifikace (PCR clean up kity) – vhodné i pro odstranění nespecif. fragmentů a dimerů primerů do 100 bp • EXOSAP: enzymatické odstranění primerů (ExoI) a dNTPs (SAP) ExoI: Exonuclease I, štěpí jednovláknovou DNA; SAP – shrimp alkaline phosphatase, degraduje dNTPs • vlastní sekvenaci provádějí servisní pracoviště – vyžadují dodání PCR produktu + požadovaného sekvenačního primeru
Výstup ze sekvenátoru • Data ze sekvenátoru: • vizualizace a editace - free programy (FinchTV – prohlížení a editace Sequence Scanner –prohlížení, zobrazuje i raw data a parametry runu BioEdit (BioLign)– prohlížení a editace, sestavování alignmentu) • jeden běh sekvenace pokryje 500-900 bp • delší úseky se dají pokrýt sekvenování z reverse směru (za použití reverse PCR primeru), případně pomocí vnitřních primerů
Výstup ze sekvenátoru • Ideální výsledek: • jednotlivé, nepřekrývající se píky = jasně určené báze sekvence • prvních ~30 bp včetně sekv. primeru nečitelných (nevýhoda Sanger metody) • po 500-800 bp: postupný pokles signálu, problém zejména s určením počtu nukleotidů u opakujících se bází - vždy vhodná manuální editace!, příp. doplňující sekvenace v reverse směru konecsekvence: náhlý pokles signálu, často patrná sekvence reverse primerü (v reverse complement podobě!) raw signál: vyrovnaný průběh příp. mírný pokles
Výstup ze sekvenátoru Skládání forward a reverse sekvence daného vzorku: aby bylo možné srovnat, je nutné reverse sekvenci převést do reverse complement forward sekvenace → - nezachytí prvních ~30 bp (← reverse sekvenace) 5´ - GGAGAAGTCGTAACAAGGTTTCCG – 3´ sekvence forward primeru – vždy pouze na konci reverse sekv. (forward sekvenace →) 5´ - TCCTCCGCTTAGTGATATGC – 3´ - reverse complement sekvence reverse primeru, vždy pouze na konci forward sekv. ← reverse sekvenace - nezachytí posledních ~30 bp
Výstup ze sekvenátoru Technické artefakty sekvenace: ? • PCR produkt může být v pořádku, pouze chyba během přípravy vzorku na sekvenaci • dejte znovu sekvenovat... • vmezeřené píky (často jde o jeden typ barvy – nukleotidu); zeditovat!
Výstup ze sekvenátoru • Technické artefakty sekvenace: • bloby - nadbytek neinkorporovaných ddNTPs • nejasná místa blobu řeší sekvenace v reverse směru; někdy možné i zeditovat: artefaktní píky obvykle nápadně vysoké a neostré, překryvají pravé píky bází (aac) artefakt
Výstup ze sekvenátoru Technické artefakty sekvenace: • spike – překryje 1-2 báze, nutná reverse sekvenace (vznik nejasný - malé vzduchové bubliny v kapiláře?) • zákeřné chyby vyhodnocovacího programu (?) - před analýzou dat zkontrolovat podezřele variabilní místa!
Výstup ze sekvenátoru • Technické artefakty sekvenace: • chyby polymerázy u repetitivních sekvencí (často u cpDNA) u 2 bp a více bp mikrosatelitů: nečitelnou část sekvence lze doplnit reverse sekvenací
Výstup ze sekvenátoru Technické artefakty sekvenace: • inhibice sekvenace: indikují ji např. raw data v programu Sequence Scanner; signál po celou délku runu ideálně ~1000-2000 předčasný konec čtení: sekvence neúplná, chybí místo reverse primeru! raw signál: náhlý pokles, abnormální signál
Výstup ze sekvenátoru Technické artefakty sekvenace: • nadbytek PCR produktu: spotřebování / opotřebení sekv. reagencií předčasný pokles kvality a výšky píků (např. už od 300-400 bp) raw signál: vysoké počáteční píky, pak patrný pokles
Výstup ze sekvenátoru Technické artefakty sekvenace: • málo PCR produktu: nejčastěji u slabých bandů nízká kvalita čtení, abnormální morfologie píků, zdvojené píky raw signál: signál <100, téměř nepřevyšuje bazální šum
Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • sekvence PCR produktu tvoří sekundární strukturu – smyčku náhlý, nápadný pokles signálu: http://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form začátek smyčky problematické jsou patrně smyčky stabilní za elongační teploty sekvenace (65-72°C); u méně stabilních sek. struktur pomůže(?) přidání denaturačních látek (např. DMSO); ani reverse sekvenace nepokryje vlastní oblast smyčky (pouze oblast za ní)
Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • dimery primerů: horší signál na začátku, paknáhlé zlepšení: podobné i jiné, delší nespecif. PCR produkty; řeší gelová extrakce, nebo doplňující sekvenace v reverse směru ! signál dimerů může převyšovat signál cílového PCR produktu → začátek sekvence je nesmyslný (nesedí na příbuzné sekvence) - nutné oříznout! falešný ´dimerový´ signál cílový signál
Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • kontaminace signálem ze sekvence z necílového organismu: (ITS sekvence mechu r. Didymodon, nižší píky odpovídají kvasince - r. Yarrowia?) • kontaminační píky obvykle od začátku sekvence (a často až do konce) (pozn.: výše uvedený příklad zachycuje situaci, kdy se cílový a kontaminující PCR produkt lišil délkou)
Sekvenování DNA - paralogy Paralogy • na první pohled připomínají kontaminaci sekvenace • v genomu více rozrůzněných kopií úseku, použité primery je chytají • typické pro multi-copy úseky: jaderná rDNA, vzácně ale i cpDNA • i u low-copy úseků, nebo dokonce u single-copy úseků u (diploidních) heterozygotních jedinců • mohou komplikovat analýzu a interpretaci dat: • zásadním předpokladem je homologie posuzovaných objektů (orthology) často neřešitelné otázky: která ze 2 sekvencí taxonu B je homologická se sekvencí taxonu A? co s případem, kdy při zahrnutí obou sekvencí taxonu B, dává každá jiný výsledek?
Výstup ze sekvenátoru Paralogy • při sekvenci PCR produktu se poznají podle zdvojených píků: na rozdíl od kontaminace bývá začátek sekvence čitelný! a) paralogy lišící se substitucemi:
Výstup ze sekvenátoru Paralogy b) paralogy lišící se indely – obvykle působí nečitelnost sekvence: (indel = místo inzerce nebo delece nukleotidu) někdy se projeví i poklesem na raw signálu (ale ne tak nápadné jako u smyčky nebo inhibice)
Výstup ze sekvenátoru Paralogy zdánlivě neproblematická sekvenace z jednoho směru ... ? možná inhibice? ... reverse sekvenace jasně prokáže paralogy (a vyloučí možnost inhibice):
Sekvenování DNA - paralogy • Co s paralogy? • minoritní variabilitu lze v některých případech zanedbat (např. fylogeneze vyšších tax. úrovní) • x jak velké rozdíly jsou ještě minoritní a zanedbatelné??? • je nutné řešit pokud jsou sekvence totálně nečitelné • molekuly paralogů z PCR produktu lze separovat klonováním: • jednotlivé molekuly PCR produktu vloženy pomocí vektoru do bakterií • předpoklad: 1 buňka přijme pouze 1 vektor, z každé 1 buňky bakterie vyroste jediná homogenní kolonie • jednotlivé bakteriální kolonie použity pro amplifikaci dané molekuly PCR produktu → sekvenace
Sekvenování DNA - paralogy • Klonování PCR produktu: • Ligace molekul PCR produktu (inzertu) do vektoru (plazmidu): • enzym ligáza – spojuje kohezivní nebo tupé konce (ligázu držet na ledu, skladovat v mrazáku - velmi nespolehlivá a citlivá na zvýš. teplotu!) • snadnější je ligování kohezivních konců – PCR produkt vytvořený Taq polymerázou má na konci A-přesahy, linearizovaný vektor má komplementární T: PCR produkt
Sekvenování DNA - paralogy • Klonování PCR produktu: • Transformace: vektor vnesen do kultury kompetentních buněk (Escherichia coli) – např. teplotním šokem (45s – 42°C) • Výsev bakteriální kultury na médium, které obsahuje: • antibiotikum (ampicilin) → přežijí jen bakterie transformované plazmidem nesoucím rezistenci • substrát, které bakterie s funkčním β-galaktosidázovýmoperonem utilizují za vzniku modrého barviva → bakterie transformované prázdným plazmidem bez inzertu jsou modré • Colony PCR:bílé bakteriální kolonie s inzertem se použijí jako templát pro PCR a sekvenaci
Sekvenování DNA - paralogy • Klonování PCR produktu: • protože klonování separuje a namnoží jednotlivé molekuly PCR produktu, při jejich sekvenování se zachytí artefakty PCR (nejsou patrné na signálu přímého sekvenování, které zobrazuje většinový signál převažujících molekul) • chyby PCR polymerázy (v reálu obvykle ~1-3 chyby / 700 bp PCR produktu za použití klasické Taq polymerázy; u proofreadingových ještě méně) • artefaktní hybridní molekuly (PCR hybrids, PCR recombinants): • polymeráza nedokončí syntézu vlákna, a to v dalším cyklu nasedne na jiné, ne zcela komplementární vlákno, a podle něj se dosyntetizuje • používat 2x delší cyklovou elongaci, redukovat počet PCR cyklů
Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • výběru úseku by mělo předcházet prohledání databáze NCBI • např. pokud jsou dostupné sekvence z příbuzných organismů, můžeme je přímo využít pro analýzu, nebo z nich můžeme odhadnout variabilitu daného úseku • exony –kódující sekvence • nižší variabilita, ale jednodušší určení homologie (alignování) • introny – přepisované do mRNA, vystřižené během její maturace • vyšší variabilita, někdy problémy s určením homologie • spacery – mezerníky oddělující geny • vyšší variabilita, někdy problémy s určením homologie schéma genu: (UTR – regulace translace a stability mRNA)
Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • jaderná ribozomální DNA:tisíce kopií v tandemovém uspořádání, v tzv. NORs (nucleolar organizing regions), na jednom nebo více chromozomech • concerted evolution – molek. mechanizmy které homogenizují případnou variabilitu v kopiích • 18S rDNA (SSU, small ribosomal subunit), 26S rDNA (LSU, large r. s.), 5.8SrDNA (součást LSU) - transkripcí vzniká rRNA, která spolu s proteiny tvoří součást ribozomů; vyšší tax. úroveň • ITS (Internal Transcribed Spacer) – přepisované do rRNA, ale před maturací z rRNA vystřižené; druhová a nižší úroveň; často paralogy; příp. IGS, EGS • univerzální primery nebo specifické pro urč. skupinu
Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • jaderné single-copy a low-copy geny • primery obvykle fungují pouze na určitou taxonomickou skupinu • oproti multi-copy úsekům by měly mít méně problémů s paralogy, ale u low-copy úseků často paralogy jsou • LEAFY geny – někdy komplikované duplikacemi • zdá se, že multi-copy úseky mohou nést informaci o starších událostech (zachová se kvůli dostatečnému počtu kopií), low-copy úseky zaznamenávají spíše recentnější historii
Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • cpDNA: • ± univerzální primery pro desítky úseků • ačkoli jsou chloroplasty v buňce ve velkém počtu, obvykle bez paralogů • kódující oblasti – vyšší tax. úroveň • nekódující oblasti – druhová a nižší úroveň, u krytosemenných fylogeografie, někdy méně variabilní než např. ITS • příklady často používaných úseků: • rbcL, matK – kódující • exony, spacery a introny oblasti trnT-trnL-trnF(Taberlet et al., 1991) • Taberlet P, Gielly L, Patou G, and Bouvet J. 1991. Universal primers for amplification of three noncoding regions of chloroplast DNA. Pl. Mol. Biol. 17: 1105-1109. • Shaw J, Lickey E, Beck JT, Farmer SB, Liu W, Miller J, Siripun KC, Winder CT, Schilling EE, and Small RL. 2005. The tortoise and the hare II: relative utility of 21 noncoding chloroplast DNA sequences for phylogenetic analysis. American Journal of Botany 92: 142–166. • Shaw J, Lickey E, Schilling EE, and Small RL. 2007. Comparison of whole chloroplast genome sequences to choose noncoding regions for phylogenetic studies in angiosperms: the tortoise and the hare III. American Journal of Botany 94: 275–288.
Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • mtDNA: • ještě méně variabilní než cpDNA (neplatí pro nahosemenné) • ± univerzální primery, ale rel. časté ztráty/duplikace úseků • jako zdroj dat slouží pořadí genů (taxonomie vyšších tax. jednotek, např. oddělení) • Duminil J, Pemonge MH, Petit RJ. 2002. A set of 35 consensus primer pairs amplifying genes and introns of plant mitochondrial DNA. Molecular Ecology Resources, 2:428-430. • Knoop V. 2004. The mitochondrial DNA of land plants: peculiarities in phylogenetic perspective. Curr Genet 46: 123-139.
Práce s DNA sekvencemi Tvorba alignmentu (alignování) • určení homologií jednotlivých pozic sekvencí • může být jednoduché u translatovaných kódujících sekvencí (nejsou gapy = inzerce a delece) → stačí manuální alignování od oka • programy hledají řešení, které má nejnižší D skóre: D = s + wg s – počet substitucí g – počet gapů w – tzv. cena gapu: cena za otevření gapu, a za jeho prodlužování parametry ceny gapu musíme zadat → spíše intuitivně: když máme hodně diverzifikované sekvence, u nichž se dá čekat hodně indelů, je logické použít nižší cenu gapu
Práce s DNA sekvencemi Tvorba alignmentu (alignování) • Clustal W (implementován např. v programu BioEdit) (Accessory Application → ClustalW Multiple Alignment) • relativně rychlé, vhodné např. pro orientační ´zarovnání´ alignmentu • tzv. progresivní metoda: once gap → always gap • nepoužívat, vede k nekonzistencím (pro stejné sekvenční motivy u různých sekvencí různá řešení): • sofistikovanější algoritmy: MAFFT, Muscle • iterativní přístup - programy se během procesu vrací na jednotlivé úrovně, umožňuje korigování
Práce s DNA sekvencemi Úprava alignmentu: • po zalignování případně vyříznout příliš variabilní oblasti s nejistou homologií: • saturace mutacemi: příliš variabilní pozice → mutace se několikrát protočily → riziko homoplazií
Práce s DNA sekvencemi Úprava alignmentu: • využití informace ze sekundární struktury: u DNA přepisované do RNA, která má určitou funkci závislou na sek. struktuře - např. nrDNA: SSU, LSU, ITS (zvlášť pro ITS1 a ITS2) loop stem • loops – přesycené mutacemi, vyřadit z analýzy • stems– protože interagují v sek. struktuře, nejsou jednotlivé pozice vzájemně nezávislé, kompenzační mutace (vážení pozic alignmentu)
Práce s DNA sekvencemi Úprava alignmentu: • ošetření oblastí gapů:(v místě indelů; pro delece symbol – nebo ~) • vyříznout(gaps were excluded from the analysis) – vhodné, když je nejistota s homologií; ideálně už v BioEditu (ale radši si uložit i původní verzi bez výřezů) • použít, ale vlastní deleci brát jako missing data (symbol ?) výhoda: neztratí se informace o znacích sdílených sekvencemi A a B
Práce s DNA sekvencemi Úprava alignmentu: • zakódovat: • kódovat jako pátý stav (gaps were considered as fifth state), ale radši pouze začátek gapu: delší indel vznikl jako jedna událost → když by se zohledňovala každá pozice gapu, tak by byla jeho informace nadhodnocená • kódovat jako binární data 0/1 (gaps were scored as present or absent); vlastní gapy dát jako missing data, nebo vyříznout: nutné např. pro nestejně dlouhé gapy, které začínají na stejné pozici – ani kódování začátkem gapu není uspokojivé, spojovalo by nerovnocenné indely: OK (nahrazení symbolů lze nejlépe provést pomocí hromadných záměn v Notepadu)
Práce s DNA sekvencemi NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/ • spojuje veřejně dostupné databáze sekvencí DNA vyhledávání podle jména taxonu příp. názvu úseku, nebo accession number • pro publikování dat je nutné sekvence submitovat do veřejně dostupné databáze (GenBank), vždy uvádět příslušná accession numbers
Práce s DNA sekvencemi BLAST (Basic Local Alignment Search Tool) • algoritmuspro hledání homologických sekvencí • přibližné ověření identity sekvence • hledání příbuzných sekvencí, které můžeme zahrnout do analýzy • přibližný a hrubý nástroj, nemůže nahradit fylogenetickou analýzu • výsledek ovlivněn např. jak moc je daný úsek/tax. skupina zastoupená v databázi) • vlastní algoritmus: • naše sekvence (Query) → algoritmus z ní použije kratší motivy (words), prohledává jimi databázi • pokud word nalezeno v sekvenci z databáze (Sbjct), dále v ní prohledává jeho okolí • pokud celková podobnost přesáhne určitý limit, sekvenci vybere http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
Práce s DNA sekvencemi BLAST vizualizace Query coverage (~ jak dlouhý je homolog. úsek srovnávaných sekvencí) pravděpodobnost, že podobnost sekvencí je náhodná je dobré brát v potaz: někdy může např. Max. Ident. 95%, ale jen na krátkém úseku Query
Fylogenetická analýza – praktické návody Editace sekvencí, tvorba alignmentu v programu BioEdit zeditovat danou sekvenci – opravit zjevné chyby, nerozlišené části import z prohlížeče (stačí vybrat, Ctrl+C, File – Import from Clipboard) ! prvních 9 písmen názvu by mělo sekvenci jednoznačně identifikovat, používat radši jen písmena bez diakritiky, čísla a příp. ´_´ přibližně manuálně zarovnat (I, D apod.) zkontrolovat a opravit případná podezřele variabilní místa (Edit mode) oříznout sekvence primerů + neúplné částí na začátku a na konci datové matice (vybrat přísl. sloupce, Delete) uložit: formát .fas, .bio apod.
Fylogenetická analýza – praktické návody • MAFFT alignmenthttp://mafft.cbrc.jp/alignment/server/ naloadovat soubor sekvencí zaslání výsledného souboru e-mailem
Fylogenetická analýza – praktické návody • MAFFT alignmenthttp://mafft.cbrc.jp/alignment/server/ ideální pro obtížně zalignovatelné sekvence nekódující sekvence, které ale tvoří funkční RNA molekuly (ncRNA) se sekundární strukturou, např. nrDNA cena gapů
Fylogenetická analýza – praktické návody Úprava alignmentu: • export do formátu pro fylogenet. analýzy: nejčastěji nexus (.nex) BioEdit: File → Export → Sequence Alignment → PAUP/NEXUS (*.pau, *.nex) • případně zakódovat a definovat gapy: (nexus interleaved formát)
Fylogenetická analýza – praktické návody Úprava alignmentu: • využití informace ze sekundární struktury: u DNA přepisované do RNA, která má určitou funkci závislou na sek. struktuře - např. nrDNA: SSU, LSU, ITS (zvlášť pro ITS1 a ITS2) • někdo tento přístup nepoužívá (x sek. struktury jsou modely, nemusí odpovídat realitě); často používají např. algologové • pokud je k dispozici, použít dostupný model pro danou skupinu • pokud není, nutné vytvořit vlastní model: • vytvořit modely všech možných sek. struktur – program Mfold http://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form teplota, za které je struktura stabilní; používá se průměrná teplota, při které organismus žije
Fylogenetická analýza – praktické návody Úprava alignmentu: • program obvykle vygeneruje několik různých struktur, smyčky společné všem navrženým strukturám použít pro vytvoření hypotetického konsenzuálního modelu: loop stem • loops – přesycené mutacemi, vyřadit z analýzy • stems– protože interagují v sek. struktuře, nejsou jednotlivé pozice vzájemně nezávislé, kompenzační mutace (vážení pozic alignmentu)
Fylogenetická analýza – praktické návody BLAST vložíme naši analyzovanou sekvenci ovlivní kolik sekvencí bude prohledávat, ale také rychlost vyhledávání