390 likes | 624 Views
Bioinformatika. Radka Storchová. rozšiřující přednášky Fatima Cvrčková: Úvod do bioinformatiky Jan Pačes a Jiří Vondrášek: Bioinformatika. doporučená literatura Fatima Cvrčková: Úvod do praktické bioinformatiky , Academia 2006.
E N D
Bioinformatika Radka Storchová
rozšiřující přednášky • Fatima Cvrčková: Úvod do bioinformatiky • Jan Pačes a Jiří Vondrášek: Bioinformatika • doporučená literatura • Fatima Cvrčková: Úvod do praktické bioinformatiky, Academia 2006 přednášky a konference společnosti FOBIACzech Free & Open Bioinformatic Associationhttp://fobia.img.cas.cz/
Bioinformatická data nukleotidové sekvence DNA genová exprese RNA protein aminokyselinové sekvence prostorové uspořádání proteinů
Sekvenování DNA • Sangerova metoda- manuálně (gely)- automatické sekvenování (sekvenátory), 500 – 700 bp/run • Sekvenovací technologie nové generace- 454, Solexa, Solid …- paralelní sekvenování miliónů sekvencí - celkem 100 – 3000 Mb/run- jednotlivé sekvence dlouhé 20 – 400 bp sekvenační gel pyrogram chromatogram
Sekvenování DNA IUPAC kódy pro nukleové kyseliny T G TTRACT
Sekvenování proteinů Aminokyselinové zkratky • Enzymaticky - Edmanovo odbourávání • Hmotnostní spektrometrie • přes sekvenování DNA či RNA Hmotnostní spetrometr MALDI TOF
Formáty sekvencí text CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA FASTA první řádek začíná znakem „>“,za kterým pokračuje popis sekvence >MSMg01-272P04.TJ:226-445 chr1:191356652-191356652 CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA
Formáty sekvencí PHILIP počet sekvencí délka sekvencí
Formáty sekvencí CLUSTALW2 file začíní slovem „CLUSTAL“ počet aminokyselin/nukleotidů jméno sekvence * identická sekvence : konzervovaná substituce . semi-konzervovaná substituce
Formáty sekvencí GeneBank
Genová exprese GLOBÁLNÍ ANALÝZA GENOVÉ EXPRESE stanovení exprese velkého množství genů najednou, v ideálním případě všech genů • technologie založené na sekvenování transkriptů • EST (Expressed Sequence Tags) • SAGE (Serial Analysis of Gene Expression) • sekvenovací technologie nové generace (např. Solexa) • technologie založené na mRNA hybridizaci • DNA čipy (microarrays)
ESTs (Expressed Sequence Tags) 1. Izolace mRNA 4. Sekvenování AAAA AAAA AAAA Expressed sequence Tags„single-pass“ sekvence z 3´ nebo 5´ konce mRNA(cca 500 nukleotidů) 2. Syntéza cDNA AAAA TTTT EST knihovna AAAA TTTT • ne příliš kvalitní data • málo osekvenovaných mRNA, zachytí jen početné transkripty • častá normalizace EST knihoven, poskytuje jen kvalitativní informace o genové expresi • zachytí i expresi neznámých genů 3. Zaklonování do vektoru cDNA knihovna
SAGE (Serial Analysis of Gene Expression) princip • z každé molekuly mRNA se v přesně definované pozici vystřihne 14 – 21 bp úsek (= tag) • spojení tagů do dlouhých úseků, v nichž jsou jednotlivé tagy odděleny mezerníky. Spojené sekvence se sekvenují • sekvence tagu slouží pro identifikaci počet jednotlivých tagů poskytuje kvantitativní informaci o genové expresi • kvalitní data • kvantitativní informace o genové expresi • zachytí i méně početné transkripty • zachytí i expresi neznámých genů • lze porovnávat data vytvořená v různých laboratořích
Nové technologie sekvenování • Velmi rychlé a relativně levné sekvenování • - cDNA knihovy • - SAGE knihovny • Umožní zachytit i velmi vzácné transkripty • Nové technologie, nástroje pro analýzu se vyvíjejí
DNA čipy (microarrays) Izolace RNA dvoukanálové čipy Měření fluorescence červený/zelenýsignál Kontrola Vzorek Hybridizace Příprava fluorescenčněznačené sondy Próby:- syntetizované oligonukleotidy - cDNA
DNA čipy (microarrays) Izolace RNA jednokanálové čipy (např. Affymetrix GeneChips) Skenování Hybridizace Kontrola Analýza dat Vzorek Příprava fluorescenčněznačené sondy • velmi rychlá metoda • kvalitní data • kvantitativní informace o expresi • zachytí jen expresi známých genů, jejichž sekvence je přítomná na čipu • data z jednokanálových čipů lze porovnávat mezi laboratořemi
GeneChip 640 Hybridization Oven GeneChip 450 Fluidics Station Affymetrix GeneChip GeneChip 3000 7G Scanner
Affymetrix GenChips • využívá 25bp dlouhé próby • každý gen reprezentován 11 - 20 próbami, které dohromady tvoří probeset • Na jednom čipu může být až několik desítek tisíc prób RNA próba probeset
Affymetrix GenChips 2 typy prób referenční sekvence TAGGTCTGTATGACAGACACAAAGAAGATG CAGACATAGTGTCTGTGTTTCTTCT CAGACATAGTGTGTGTGTTTCTTCT PM: the Perfect Match MM: the Mismatch
Affymetrix GenChips Rozmístění prób na čipu Chip description file (cdf) – popisuje polohu jednotlivých prób na čipu a jejich příslušnost k probesetům.
Affymetrix GenChips Analýza obrazu .DAT file .CEL file Generován automaticky pomocí programu GCOS (Affymetrix)
Affymetrix GenChips Získání expresních dat • Převedení intenzity fluorescence do číselných hodnot genové exprese - Background adjustment - Scaling - Summarization • Algoritmus: MAS5 (Affymetrix) RMA/GSRMA .CHP file
Databáze křížení genotypy Relační databáze markery relační schéma SQL (Structured Query Language) SELECT myšFROM křížení LEFTJOIN ON genotypy USING myšWHERE lokus_A = ‘X’ and matka = ‘Y’
Primární databáze DNA sekvencí GeneBank (Amerika)EMBL (Evropa) DDBJ (Japonsko) • Obsahují více než 100 gigabází z více než 165 000 organismů • Totožný obsah • Redundantní • Nemoderované
Specializované databáze Databáze genůRefSeq, Entrez Gene Cílem poskytnout kompletní, neredundantní soubor genů a jejich sekvencí. Přiřadit k sobě sekvence DNA, mRNA a proteinů. Dát jim jednotné a stabilní identifikátory. Shromažďují biologické informace o jednotlivých genech, jejich produktech. Jen ověřená data. Databáze genových expresních datdbEST.Databáze EST (Expressed Sequence Tags).UniGene.Sekvence mRNA a EST jsou zde uspořádány do neredundantních „klastrů“. Každý z nich představuje unikátní trankript GEO.Obsahuje expresní data získaná pomocí DNA čipů, SAGE a jijných metod. Databáze proteinůUniProt.Nejobsáhlejší katalog informací o proteinech a centrální úložiště proteinových sekvencí a informací o funkci proteinů. Vznikla sloučením databází Swiss-Prot a TrEMBL.PDB. Obsahuje trojrozměrné struktury proteinů.
Specializované databáze • Gene Ontology • Smyslem vytvořit jednotnou terminologii pro popis funkce genových produktů. • Termíny jsou hierarchicky uspořádané od obecnějších funkcí po specializované funkce • Termíny vycházejí ze tří kategorií 1. lokalizace v buňce (mitochondrie, jádro, endoplazmatické retikulum, ribozom…)2. biologická funkce (signální transdukce, pyrimidinový metabolismus…)3. molekulární funce (katalytická aktivia, vazebná funkce, adenylát cyklázová aktivita) • Vyhledávání lze omezit i na určité druhy či taxony
Databáze genomů EnsemblNCBIUCSC Genome Browser Vycházejí ze stejné DNA sekvence (assembly), ale přidávají k ní vlastní anotace a predikce genů. Liší se možnostmi prohledávání a exportu dat.
Porovnávání sekvencí a určování míry jejich podobnosti Pairwise alignment Multiple alignment Globální vs. Lokální alignment
Alignment BLOSUM 80 BLOSUM 62 BLOSUM 45 PAM 1 PAM 120 PAM 250 více podobné sekvence méně podobné sekvence Substituční matice teoreticky odvozenéempiricky odvozené PAM: založené na alignmentech blízce příbuzných proteinů. PAM1 matice stanovena z alignmentů sekvencí s ne větší než 1% divergencí. Ostatní PAM matice odvozené od PAM1. Hodí se na porovnávání blízce příbuzných proteinů. nejjednodušší substituční matice pro nukleotidové sekvence BLOSUM: vycházejí z většího množství více rozmanitých proteinů. Všechny BLOSUM matice stanovené z reálných alignmentů. BLOSUM 62 stanovená z alignmenů sekvencí s ne větší než 62% identitou. Default matice.
Alignment cena mezer (gap penalty) • neexistují žádné teorie pro odvození ceny mezer • cena za otevření mezery (a) – větší než jakákoli substituce (a = -10 pro BLOSUM 62) • cena za prodloužení mezery (b) – jakmile jednou mezera vznikne, její prodloužení je snadné (b = -1 pro BLOSUM 62)
Alignment Výhody porovnání aminokyselinových sekvencí ve srovnání s nukleotidovými sekvencemi • Existuje 20 různých aminokyselin, ale jen 4 různé nukleotidy. Proto lze vypočítat statistiku i pro mnohem kratší alignmenty aminokyselin. • Při porovnávání AK sekvencí se bere v potaz pravděpodobnost substitucí různých aminokyselin. • Degenerovaný genetický kód. Zhruba 1/3 nukleotidových substitucí nezpůsobuje záměnu AK, nejsou pod selekčním tlakem. Vytvářejí šum. Proto i když chceme udělat alignment kódujících DNA sekvencí, je lepší ho udělat na úrovni aminokyselin a ty pak nahradit příslušnými nukleotidy.
Prohledávání databází podle podobnosti sekvencí PROHLEDÁVACÍ ALGORITMY: SSEARCH:vytváří alignmenty zadané sekvence (query) s každou sekvencí v databázi. Výpočetně velmi náročné. heuristické metody: předem vyloučí sekvence, které jsou zadávané sekvenci nepříbuzné. Hledání krátkých společných motivů („slov“), alignmenty se vytváří jen s těmi sekvencemi, které mají alespoň jedno společné „slovo“. FASTA: na EBI serveru http://www2.ebi.ac.uk/fasta33BLAST: na stránkách NCBIhttp://www.ncbi.nlm.nih.gov/BLASTrychlejší než FASTABLAT: na stránkách UCSC http://genome.ucsc.edu/cgi-bin/hgBlat velmi rychlý, pro vyhledávání vysoce homologních sekvencí
BLAST volba metody: TBLASTN: hledá sekvenci proteinů v databázi obsahující atomatické překlady nukleotidových databází ve všech 6 čtecích rámcích. BLASTX: přeloží sekvenci ve všech 6 čtecích rámcích a vzniklými sekvencemi prohledává databáze proteinů. PSI-BLAST: využívá pozičně specifické substituční matice (PSSM), berou v potaz také sekvenční kontext, ve kterém došlo k substituci. Hodí se pro porovnávání vzdálenějších sekvencí.
BLAST statistická významnost: E value (Expectation value) • P = 1 – e –E • na rozdíl od P-value mohou být hodnoty E-value přesahovat 1 (lépe se porovnávají). Pro E < 0.01, P-value a E-value jsou téměř identické. • Hodnoty E-value závisí také na velikosti databází, které prohledáváme! Zmenšením velikosti prohledávaných databází se E-value zvyšuje. Proto vždy nutno uvést kromě E-value také prohledávané databáze a jejich verzi.
BLAST volba parametrů: • Výběr databáze. Omezení prohledávání jen na sekvence z určitých druhů či taxonů • E-value. Default hodnota je 10. Snížíme pokud chceme omezit výstup nebo zvýšíme pokud chceme naléz i sekvence s velmi malou podobností. • Délka „slova“. Pro aminokyseliny default 3. Zkrácením velikosti slova na 2 se zvýší citlivost, ale velmi se zpomalí prohledávání. Pro nukleové kyseliny default 11. • Substituční matice. Default BLOSOM 62. Funguje přes široké spektrum evolučních vzdáleností. Pokud hledáme i velmi vzdálené sekvence, můžeme použít BLOSOM 45. Naopak pro velmi podobné sekvence můžeme použít BLOSOM 80, PAM 30 či PAM 70. Každá substituční matici přísluší jiné hodnoty ceny mezer.
Multiple alignment Porovnání několika proteinových či nukleotidových sekvencí za účelem vyhledávání evolučně konzervovaných domén, vytvoření evolučního stromu či jiných evolučních analýz.
Multiple alignment ClustalW • princip: • vygeneruje alignmenty každých dvou sekvencí • spočítá jejich evoluční vzdálenost • pro nejbližší dvojici spočítá alignment a k tomu postupně přikládá vzdálenější sekvence • možné problémy: • používá globální alignment, musíme mít stejně dlouhé sekvence • není možné později opravit chyby vzniklé alignmentem nehomologních částí