1 / 49

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část. Petr Koutecký & Jiří Košnar, 2011. Historie, princip sekvenování DNA. Sekvenování DNA řešení otázek: fylogeneze, na jakékoli tax. úrovni (ale musí být nalezen vhodně variabilní úsek)

hamish
Download Presentation

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metody molekulární biologie v ekologii a systematice rostlin 5. Sekvenování DNA – 1. část Petr Koutecký & Jiří Košnar, 2011

  2. Historie, princip sekvenování DNA • Sekvenování DNA řešení otázek: • fylogeneze, na jakékoli tax. úrovni (ale musí být nalezen vhodně variabilní úsek) • taxonomie na úrovni druhů, příp. vnitrodruhových taxonů • hybridizace • fylogeografie • molekulární identifikace - barcoding předpoklady: • musíme znát primery na PCR amplifikaci zvoleného úseku • metodicky často ne příliš náročné, stačí rel. málo genomové DNA • dost peněz (rel. drahé)

  3. Historie, princip sekvenování DNA • Metody sekvenování DNA • * 70. léta minulého století • sekvenování chemickou modifikací (Maxam & Gilbert, 1977): • 5´ konec se radioaktivně označí • působením chemikálií se ve 4 separovaných reakcích specificky modifikují jednotlivé báze resp. v menší míře dvojice bází: A(+G): depurinované kys. mravenčí, T(+C): methylované hydrazinem, G: methylované dimethyl sulfátem, C: methylované hydrazinem v přítomnosti NaCl • v místě modifikované báze je DNA selektivně štěpena piperidinem • vzniklé fragmenty jsou separované na denaturačním PAA gelu (přesnost 1 báze) • značení jen jednoho konce umožní stanovit, na které pozici sekvenovaného úseku je nukleotid dané specifické reakce

  4. Princip sekvenování DNA

  5. Princip sekvenování DNA • Metody sekvenování DNA • chain terminator method: sekvenování syntézou DNA • dideoxynukleotidy (ddNTPs): nemají 3´-OH skupinu pro další prodlužování řetězce DNA, proto terminují Sanger &Coulson, 1975 • ddNTPs smíchané s převládajícími dNTPs • sekvenační reakce – DNA polymeráza, pouze 1 primer, podobné PCR (cycle sequencing), ale fragmenty přibývají lineárně! • při inkorporaci značeného ddNTP - terminace • vznikají různě dlouhé fragmenty – ELFO denaturační PAA gel, kapilární ELFO se sekv. polymerem A původně 4 reakce (každý nukleotid zvlášť) B dye termination: ddNTPs odlišně fluorescenčně značené, sekvenační reakce probíhá najednou B A

  6. Princip sekvenování DNA • Jak probíhá zpracování vzorku: • je nutné mít PCR produkt úseku, který chceme sekvenovat: • bez nespecifických PCR produktů • pokud je PCR produkt dostatečně koncentrovaný, lze přímo sekvenovat • u slabších bandů je třeba odstranit neinkorporované primery a dNTPs(sekvenace je jednosměrná → nutný řádový nadbytek 1 primeru; musí být přesně vyvážený poměr dNTP a ddNTP) • kitová purifikace (PCR clean up kity) – vhodné i pro odstranění nespecif. fragmentů a dimerů primerů do 100 bp • EXOSAP: enzymatické odstranění primerů (ExoI) a dNTPs (SAP) ExoI: Exonuclease I, štěpí jednovláknovou DNA; SAP – shrimp alkaline phosphatase, degraduje dNTPs; oba enzymy inaktivované 85°C • vlastní sekvenaci (sekvenační reakce se značenými ddNTP, ELFO separace fragmentů) provádějí servisní pracoviště (Genomické centrum BC AV ČR, Macrogen) – vyžadují dodání PCR produktu a požadovaného sekvenačního primeru

  7. Výstup ze sekvenátoru • Data ze sekvenátoru: • vizualizace a editace - free programy: FinchTV – prohlížení a editace Sequence Scanner –prohlížení, zobrazuje i raw data a parametry runu BioEdit (BioLign)– prohlížení a editace, sestavování alignmentu • jeden běh sekvenace pokryje 500-900 bp • delší úseky se dají pokrýt sekvenování z reverse směru (za použití reverse PCR primeru), případně pomocí vnitřních primerů

  8. Výstup ze sekvenátoru • Ideální výsledek: • jednotlivé, nepřekrývající se píky = jasně určené báze sekvence • prvních ~30 bp včetně sekv. primeru nečitelných (nevýhoda Sanger metody) • po 500-800 bp: postupný pokles signálu, problém zejména s určením počtu nukleotidů u opakujících se bází - vždy vhodná manuální editace!, příp. doplňující sekvenace v reverse směru konecsekvence: náhlý pokles signálu, často patrná sekvence reverse primerü (v reverse complement podobě!) raw signál: vyrovnaný průběh příp. mírný pokles

  9. Výstup ze sekvenátoru Skládání forward a reverse sekvence daného vzorku: aby bylo možné srovnat, je nutné reverse sekvenci převést do reverse complement forward sekvenace → - nezachytí prvních ~30 bp ← reverse sekvenace 5´ - GGAGAAGTCGTAACAAGGTTTCCG – 3´ sekvence forward primeru – vždy pouze na konci reverse sekv. forward sekvenace → 5´ - TCCTCCGCTTAGTGATATGC – 3´ - reverse complement sekvence reverse primeru, vždy pouze na konci forward sekv. ← reverse sekvenace - nezachytí posledních ~30 bp

  10. Výstup ze sekvenátoru Technické artefakty sekvenace: ? • PCR produkt může být v pořádku, pouze se ztratil během přípravy vzorku na sekvenaci (např. ztráta DNA při přesrážení isopropanolem) • dejte znovu sekvenovat... • vmezeřené píky (často jde o jeden typ barvy – nukleotidu); zeditovat!

  11. Výstup ze sekvenátoru • Technické artefakty sekvenace: • bloby - nadbytek neinkorporovaných ddNTPs • nejasná místa blobu řeší sekvenace v reverse směru; někdy možné i zeditovat: artefaktní píky obvykle nápadně vysoké a neostré, překryvají pravé píky bází (aac) artefakt

  12. Výstup ze sekvenátoru Technické artefakty sekvenace: • spike – překryje 1-2 báze, nutná reverse sekvenace (vznik nejasný - malé vzduchové bubliny v kapiláře?) • zákeřné chyby vyhodnocovacího programu (?) - před analýzou dat zkontrolovat podezřele variabilní místa!

  13. Výstup ze sekvenátoru • Technické artefakty sekvenace: • chyby polymerázy u repetitivních sekvencí (často u cpDNA) u 2 bp a více bp mikrosatelitů: nečitelnou část sekvence lze doplnit reverse sekvenací (jiným způsobem asi neřešitelné – tento typ chyb dělá i proof-readingová ExTaq polymeráza)

  14. Výstup ze sekvenátoru Technické artefakty sekvenace: • inhibice sekvenace: indikují ji např. raw data v programu Sequence Scanner; signál po celou délku runu ideálně ~1000-2000 předčasný konec čtení: sekvence neúplná, chybí místo reverse primeru! raw signál: náhlý pokles, abnormální signál

  15. Výstup ze sekvenátoru Technické artefakty sekvenace: • nadbytek PCR produktu: spotřebování / opotřebení sekv. reagencií předčasný pokles kvality a výšky píků (např. už od 300-400 bp) raw signál: vysoké počáteční píky, pak patrný pokles

  16. Výstup ze sekvenátoru Technické artefakty sekvenace: • málo PCR produktu: nejčastěji u slabých bandů nízká kvalita čtení, abnormální morfologie píků, zdvojené píky raw signál: signál <100, téměř nepřevyšuje bazální šum

  17. Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • sekvence PCR produktu tvoří sekundární strukturu – smyčku náhlý, nápadný pokles signálu: http://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form začátek smyčky problematické jsou patrně smyčky stabilní za elongační teploty sekvenace (65-72°C); u méně stabilních sek. struktur pomůže(?) přidání denaturačních látek (např. DMSO); ani reverse sekvenace nepokryje vlastní oblast smyčky (pouze oblast za ní)

  18. Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • dimery primerů: horší signál na začátku, paknáhlé zlepšení: podobné i jiné, delší nespecif. PCR produkty; řeší gelová extrakce, nebo doplňující sekvenace v reverse směru ! signál dimerů může převyšovat signál cílového PCR produktu → začátek sekvence je nesmyslný (nesedí na příbuzné sekvence) - nutné oříznout! falešný ´dimerový´ signál cílový signál

  19. Výstup ze sekvenátoru Zákeřnější artefakty sekvenace: • kontaminace signálem ze sekvence z necílového organismu: (ITS sekvence mechu r. Didymodon, nižší píky odpovídají kvasince - r. Yarrowia?) • kontaminační píky obvykle od začátku sekvence (a často až do konce) (pozn.: výše uvedený příklad zachycuje situaci, kdy se cílový a kontaminující PCR produkt lišil délkou)

  20. Sekvenování DNA - paralogy Paralogy • na první pohled připomínají kontaminaci sekvenace • v genomu více rozrůzněných kopií úseku, použité primery je chytají • typické pro multi-copy úseky: jaderná rDNA, vzácně ale i cpDNA • vyskytují se ale i u low-copy úseků, nebo dokonce u single-copy úseků – u (diploidních) heterozygotních jedinců • mohou komplikovat analýzu a interpretaci dat: • zásadním předpokladem je homologie posuzovaných objektů (orthology) často neřešitelné otázky: která ze 2 sekvencí taxonu B je homologická se sekvencí taxonu A? co s případem, kdy při zahrnutí obou sekvencí taxonu B, dává každá jiný výsledek?

  21. Výstup ze sekvenátoru Paralogy • při sekvenci PCR produktu se poznají podle zdvojených píků: na rozdíl od kontaminace bývá začátek sekvence čitelný! a) paralogy lišící se substitucemi:

  22. Výstup ze sekvenátoru Paralogy b) paralogy lišící se indely – obvykle působí nečitelnost sekvence: (indel = místo inzerce nebo delece nukleotidu) někdy se projeví i poklesem na raw signálu (ale ne tak nápadné jako u smyčky nebo inhibice)

  23. Výstup ze sekvenátoru Paralogy zdánlivě neproblematická sekvenace z jednoho směru ... ? možná inhibice? ... reverse sekvenace jasně prokáže paralogy (a vyloučí možnost inhibice):

  24. Sekvenování DNA - paralogy • Co s paralogy? • minoritní variabilitu lze v některých případech zanedbat (např. fylogeneze vyšších tax. úrovní) • x jak velké rozdíly jsou ještě minoritní a zanedbatelné??? • je nutné řešit pokud je většina sekvencí totálně nečitelná • molekuly paralogů z PCR produktu lze separovat klonováním: • jednotlivé molekuly PCR produktu vloženy pomocí vektoru do bakterií • předpoklad (aby to fungovalo): 1 buňka přijme pouze 1 vektor, a z 1 buňky bakterie vyroste jediná homogenní kolonie • jednotlivé bakteriální kolonie použity pro amplifikaci nebo izolaci dané molekuly PCR produktu → sekvenace

  25. Sekvenování DNA - paralogy • Klonování PCR produktu: • Ligace molekul PCR produktu (inzertu) do vektoru (plazmidu): • zajišťuje enzym ligáza – spojuje kohezivní nebo tupé konce (ligázu držet na ledu, skladovat v mrazáku - velmi nespolehlivá a citlivá na zvýš. teplotu!) • snadnější je ligování kohezivních konců – PCR produkt vytvořený Taq polymerázou má na konci A-přesahy, linearizovaný vektor má komplementární T: PCR produkt často nutné ligovat bandy PCR produktů vyřízlé z tzv. low-melting agarózy, nebo aspoň přidat l.-m. agarózu do ligační směsi • inzert vkládán do β-galaktosidázového operonu, vnesením inzertu se operon vyřadí z funkce – bakterie na speciálním médiu netvoří modré zbarvení • vektor dále nese rezistenci na antibiotikum ampicilin - selekce

  26. Sekvenování DNA - paralogy • Klonování PCR produktu: • Transformace: vektor vnesen do kultury kompetentních buněk (Escherichia coli) – např. teplotním šokem (45s – 42°C), příp. elektroporací apod. • Výsev bakteriální kultury na médium: • médium obsahuje dané antibiotikum (ampicilin) → přežijí jen bakterie transformované plazmidem nesoucím rezistenci • médium obsahuje substrát, které bakterie s funkčním β-galaktosidázovýmoperonem utilizují za vzniku modrého barviva → bakterie transformované prázdným plazmidem bez inzertu jsou modré • Colony PCR:bílé bakteriální kolonie s inzertem se přenesou párátkem do sterilní vody a použijí jako templát pro PCR → úspěšné PCR sekvenovány

  27. Sekvenování DNA - paralogy • Klonování PCR produktu: • tím, že klonování separuje a namnoží jednotlivé molekuly PCR produktu, při jejich sekvenování se zachytí artefakty PCR (nejsou patrné na signálu přímého sekvenování, které zobrazuje většinový signál převažujících molekul) • chyby PCR polymerázy - v reálu obvykle: • Taq: ~1-3 chyby / 700 bp PCR produktu • Ex Taq: ~0-1 chyby / 700 bp PCR produktu • (ještě lepší je Pfu polymeráza, ale někdy hůř amplifikuje) • PCR může generovatartefaktní hybridní molekuly (PCR hybrids, PCR recombinants): • polymeráza nedokončí syntézu vlákna, a to v dalším cyklu nasedne na jiné, ne zcela komplementární vlákno, a podle něj se dosyntetizuje • používat 2x delší cyklovou elongaci, redukovat počet PCR cyklů

  28. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • výběru úseku by mělo předcházet prohledání databáze NCBI • např. pokud jsou dostupné sekvence z příbuzných organismů, můžeme je přímo využít pro analýzu, nebo z nich můžeme odhadnout variabilitu daného úseku • exony –kódující sekvence • nižší variabilita, ale jednodušší určení homologie (alignování) • introny – přepisované do mRNA, vystřižené během její maturace • vyšší variabilita, někdy problémy s určením homologie • spacery – mezerníky oddělující geny • vyšší variabilita, někdy problémy s určením homologie schéma genu: (UTR – regulace translace a stability mRNA)

  29. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • jaderná ribozomální DNA:tisíce kopií v tandemovém uspořádání, v tzv. NORs (nucleolar organizing regions), na jednom nebo více chromozomech • concerted evolution – molek. mechanizmy které homogenizují případnou variabilitu v kopiích • 18S rDNA (SSU, small ribosomal subunit), 26S rDNA (LSU, large r. s.), 5.8SrDNA (součást LSU) - transkripcí vzniká rRNA, která spolu s proteiny tvoří součást ribozomů; vyšší tax. úroveň • ITS (Internal Transcribed Spacer) – přepisované do rRNA, ale před maturací z rRNA vystřižené; druhová a nižší úroveň; často paralogy; příp. IGS, EGS • univerzální primery nebo specifické pro urč. skupinu

  30. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • jaderné single-copy a low-copy geny • primery obvykle fungují pouze na určitou taxonomickou skupinu • oproti multi-copy úsekům by měly mít méně problémů s paralogy, ale u low-copy úseků často paralogy jsou • LEAFY geny – někdy komplikované duplikacemi • zdá se, že multi-copy úseky mohou nést informaci o starších událostech (zachová se kvůli dostatečnému počtu kopií), low-copy úseky zaznamenávají spíše recentnější historii

  31. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • cpDNA: • ± univerzální primery pro desítky úseků • ačkoli jsou chloroplasty v buňce ve velkém počtu, obvykle bez paralogů • kódující oblasti – vyšší tax. úroveň • nekódující oblasti – druhová a nižší úroveň, u krytosemenných fylogeografie, někdy méně variabilní než např. ITS • příklady často používaných úseků: • rbcL, matK – kódující • exony, spacery a introny oblasti trnT-trnL-trnF(Taberlet et al., 1991) • Taberlet P, Gielly L, Patou G, and Bouvet J. 1991. Universal primers for amplification of three noncoding regions of chloroplast DNA. Pl. Mol. Biol. 17: 1105-1109. • Shaw J, Lickey E, Beck JT, Farmer SB, Liu W, Miller J, Siripun KC, Winder CT, Schilling EE, and Small RL. 2005. The tortoise and the hare II: relative utility of 21 noncoding chloroplast DNA sequences for phylogenetic analysis. American Journal of Botany 92: 142–166. • Shaw J, Lickey E, Schilling EE, and Small RL. 2007. Comparison of whole chloroplast genome sequences to choose noncoding regions for phylogenetic studies in angiosperms: the tortoise and the hare III. American Journal of Botany 94: 275–288.

  32. Využití sekvenování DNA Co se dá sekvenovat? To, na co jsou primery... • mtDNA: • ještě méně variabilní než cpDNA (neplatí pro nahosemenné) • ± univerzální primery, ale rel. časté ztráty/duplikace úseků • jako zdroj dat slouží pořadí genů (taxonomie vyšších tax. jednotek, např. oddělení) • Duminil J, Pemonge MH, Petit RJ. 2002. A set of 35 consensus primer pairs amplifying genes and introns of plant mitochondrial DNA. Molecular Ecology Resources, 2:428-430. • Knoop V. 2004. The mitochondrial DNA of land plants: peculiarities in phylogenetic perspective. Curr Genet 46: 123-139.

  33. Práce s DNA sekvencemi Editace sekvencí, tvorba alignmentu v programu BioEdit zeditovat danou sekvenci – opravit zjevné chyby, nerozlišené části import z prohlížeče (stačí vybrat, Ctrl+C, File – Import from Clipboard) ! prvních 9 písmen názvu by mělo sekvenci jednoznačně identifikovat, používat radši jen písmena bez diakritiky, čísla a příp. ´_´ přibližně manuálně zarovnat (I, D apod.) zkontrolovat a opravit případná podezřele variabilní místa (Edit mode) oříznout sekvence primerů + neúplné částí na začátku a na konci datové matice (vybrat přísl. sloupce, Delete) uložit: formát .fas, .bio apod.

  34. Práce s DNA sekvencemi Tvorba alignmentu (alignování) • určení homologií jednotlivých pozic sekvencí • může být jednoduché u translatovaných kódujících sekvencí (nejsou gapy = inzerce a delece) → stačí manuální alignování od oka • programy hledají řešení, které má nejnižší D skóre: D = s + wg s – počet substitucí g – počet gapů w – tzv. cena gapu: cena za otevření gapu, a za jeho prodlužování parametry ceny gapu musíme zadat → spíše intuitivně: když máme hodně diverzifikované sekvence, u nichž se dá čekat hodně indelů, je logické použít nižší cenu gapu

  35. Práce s DNA sekvencemi Tvorba alignmentu (alignování) • Clustal W (implementován např. v programu BioEdit) (Accessory Application → ClustalW Multiple Alignment) • relativně rychlé, vhodné např. pro orientační ´zarovnání´ alignmentu • tzv. progresivní metoda: once gap → always gap • vede k nekonzistencím – pro stejné sekvenční motivy u různých sekvencí různá řešení: • sofistikovanější algoritmy: MAFFT, Muscle • iterativní přístup - programy se během procesu vrací na jednotlivé úrovně, umožňuje korigování

  36. Práce s DNA sekvencemi • MAFFT alignmenthttp://mafft.cbrc.jp/alignment/server/ naloadovat soubor sekvencí zaslání výsledného souboru e-mailem

  37. Práce s DNA sekvencemi • MAFFT alignmenthttp://mafft.cbrc.jp/alignment/server/ ideální pro obtížně zalignovatelné sekvence nekódující sekvence, které ale tvoří funkční RNA molekuly (ncRNA) se sekundární strukturou, např. nrDNA cena gapů

  38. Práce s DNA sekvencemi Úprava alignmentu: • po zalignování případně vyříznout příliš variabilní oblasti s nejistou homologií: • saturace mutacemi: příliš variabilní pozice → mutace se několikrát protočily → riziko homoplazií

  39. Práce s DNA sekvencemi Úprava alignmentu: • využití informace ze sekundární struktury: u DNA přepisované do RNA, která má určitou funkci závislou na sek. struktuře - např. nrDNA: SSU, LSU, ITS (zvlášť pro ITS1 a ITS2) • někdo tento přístup nepoužívá (x sek. struktury jsou modely, nemusí odpovídat realitě); často používají např. algologové • pokud je k dispozici, použít dostupný model pro danou skupinu • pokud není, nutné vytvořit vlastní model: • vytvořit modely všech možných sek. struktur – program Mfold http://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form teplota, za které je struktura stabilní; používá se průměrná teplota, při které organismus žije

  40. Práce s DNA sekvencemi Úprava alignmentu: • program vygeneruje obvykle několik možných modelů:

  41. Práce s DNA sekvencemi Úprava alignmentu: • smyčky společné všem navrženým strukturám použít pro vytvoření hypotetického konsenzuálního modelu: loop stem • loops – přesycené mutacemi, vyřadit z analýzy • stems– protože interagují v sek. struktuře, nejsou jednotlivé pozice vzájemně nezávislé, kompenzační mutace (vážení pozic alignmentu)

  42. Práce s DNA sekvencemi Úprava alignmentu: • ošetření oblastí gapů:(v místě indelů; pro delece symbol – nebo ~) • vyříznout(gaps were excluded from the analysis) – vhodné, když je nejistota s homologií; ideálně už v BioEditu (ale radši si uložit i původní verzi bez výřezů) • použít, ale vlastní deleci brát jako missing data (symbol ?) výhoda: neztratí se informace o znacích sdílených sekvencemi A a B • použít, ale upravit tak, aby dávaly informaci o vlastní deleci – tzv. kódování gapů

  43. Práce s DNA sekvencemi Úprava alignmentu: • kódování gapů: • kódovat (gaps were considered as fifth state), ale radši pouze začátek gapu: delší indel vznikl jako jedna událost → když by se zohledňovala každá pozice gapu, tak by byla jeho informace nadhodnocená • kódovat jako binární data 0/1 (gaps were scored as present or absent); vlastní gapy dát jako missing data, nebo vyříznout: nutné např. pro nestejně dlouhé gapy, které začínají na stejné pozici – ani kódování začátkem gapu není uspokojivé, spojovalo by nerovnocenné indely: OK (nahrazení symbolů lze nejlépe provést pomocí hromadných záměn v Notepadu)

  44. Práce s DNA sekvencemi Úprava alignmentu: • export do formátu pro fylogenet. analýzy: nejčastěji nexus (.nex) BioEdit: File → Export → Sequence Alignment → PAUP/NEXUS (*.pau, *.nex) • případně zakódovat a definovat gapy: (nexus interleaved formát)

  45. Práce s DNA sekvencemi NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/ • spojuje veřejně dostupné databáze sekvencí DNA vyhledávání podle jména taxonu příp. názvu úseku, nebo accession number • pro publikování dat je nutné sekvence submitovat do veřejně dostupné databáze (GenBank), vždy uvádět příslušná accession numbers

  46. Práce s DNA sekvencemi BLAST • algoritmuspro hledání homologických sekvencí • přibližný a hrubý nástroj, nemůže nahradit fylogenetickou analýzu • blast similarity nemusí znamená identitu taxonů (ovlivněno např. jak moc je daný úsek/tax. skupina zastoupená v databázi) • využití např.: • přibližné ověření identity sekvence druhu, od kterého ještě daný úsek nebyl sekvenován → nejpodobnější by měly být sekvence daného úseku pocházející z příbuzných org. • nebo hledání příbuzných sekvencí, které můžeme zahrnout do analýzy

  47. Práce s DNA sekvencemi BLAST http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome • algoritmus pro hledání homologických sekvencí: • naše sekvence (Query) → algoritmus z ní použije kratší motivy (words), prohledává jimi databázi • pokud word nalezeno v sekvenci z databáze (Sbjct), dále v ní prohledává jeho okolí • pokud celková podobnost úseku přesáhne určitý limit, sekvenci vybere • výsledkem je seznam potenciálně homologických sekvencí

  48. Práce s DNA sekvencemi BLAST vložíme naši analyzovanou sekvenci ovlivní kolik sekvencí bude prohledávat, ale také rychlost vyhledávání

  49. Práce s DNA sekvencemi BLAST vizualizace Query coverage (~ jak dlouhý je homolog. úsek srovnávaných sekvencí) pravděpodobnost, že podobnost sekvencí je náhodná je dobré brát v potaz: někdy může např. Max. Ident. 95%, ale jen na krátkém úseku Query

More Related