1 / 56

Stránky praktika

Stránky praktika. http://web.natur.cuni.cz/zoologie/biodiversity/ (http://www.natur.cuni.cz/~muncling). Kde se dozvědět více?. Kurz Computational Genomics (Marc VanRanst) Bioinformatics bookmarks (http://www.kuleuven.ac.be/rega/mvr/bioinformatics.htm)

bjorn
Download Presentation

Stránky praktika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Stránky praktika http://web.natur.cuni.cz/zoologie/biodiversity/ (http://www.natur.cuni.cz/~muncling)

  2. Kde se dozvědět více? • Kurz Computational Genomics(Marc VanRanst)Bioinformatics bookmarks(http://www.kuleuven.ac.be/rega/mvr/bioinformatics.htm) • Úvod do bioinformatiky/Základy bioinformatiky(F. Cvrčková) • Molekulární ekologie(letní semestr, populační genetika, analýza paternity)

  3. Primární databáze DNA sekvencí RefSeq Genomové databáze Databáze sekvencí

  4. International Nucleotide Sequence Databases (INSD) Primární databáze DNA sekvencí Your submission Your submission DNA Data Bank of Japan (DDBJ) (National Institute of Genetics) Japan GenBank (National Center for Biotechnology Information) USA European Nucleotide Archive (European Bioinformatics Institute) Europe Your submission

  5. Provozována NCBI Kurátorovaná databáze založená na sekvencích získaných z primárních databázích Unikátní sekvence genu/transkriptu/proteinu pro jednotlivé organismy/ekomorfy/varianty RefSeq: Databáze unikátních sekvencí

  6. Skladují anotované assembly celých genomů + veškerá metadata asociovaná se sekvencemi nebo geny/transkripty/ proteiny: Sekvence, geny, transkripty, proteiny, proteinové rodiny, paralogy, orthology, mezidruhové alignmenty, genové exprese, varianty (SNPs), repetitivní elementy, mikrosatelity, strukturální změny, genová regulace, fenotypy apod. Genomové databáze http://genome.ucsc.edu/ http://www.ensembl.org/ http://www.ncbi.nlm.nih.gov/

  7. Veškerá data jou vzájemně propojena pomocí identifikátorů a pozic v genomech: Genomové databáze Transkript Exprese Funkce Sekvence Gen http://genome.ucsc.edu/ http://www.ensembl.org/ http://www.ncbi.nlm.nih.gov/

  8. Uchovávání sekvencí Alignment BLAST Manipulace se sekvencemi

  9. Uchovávání sekvencí • Sekvence uchovávány ve formě textu v klasickém textovém souboru (možno editovat v notepadu, textpadu, apod. nebo ve specifických programech určených k manipulaci a editaci sekvencí – např. BioEdit) • V textových souborech uchovávány ve specifickém tvaru: • FASTA (.fa, .fas, .fasta) • GenBank (.gb) • V každém souboru 1 i více sekvencí

  10. FASTA • Pouze velmi základní informace o sekvenci – formát určen primárně k manipulaci se sekvencemi >gi|148832288|gb|EF443167.1| Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial ATGACCCACATCCGAAAATCCCACCCCTTATTCAAAATTATCAACGACTCATTCATCGACCTACCAGCTCCATCAAACATTTCCTCCTGATGAAATTTTGGGTCCCTACTAGGTATTTGTTTAGCTGTACAAATCTTAACAGGACTGTTCCTAGCAATACATTATACATCAGATACCACAACCGCCTTCTACTCTGTTACCCATATCTGCCGAGACGTAAATTACGGCTGAATCCTACGTTACCTCCATGCCAACGGAGCATCCATATTCTTCATCTGCCTATTTATACATGTAGGCCGAGGCATCTATTACGGCTCATACCTATTCACAGAAACATGAAACATTGGCATTATCCTTCTATTCGCCGTAATAGCAACAGCATTCATAGGCTATGTCCTCCCA >gi|... ATGA...

  11. GenBank • Formát uchovává velmi detailní informaci o sekvenci – určen k uchovávání sekvencí vč. veškerých informací asociovaných se sekvencí LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007 DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial. ACCESSION EF443167 VERSION EF443167.1 GI:148832288 KEYWORDS . SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma. REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-Only REFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech Republic FEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP" ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca //

  12. DEFINITION Výpis genů v sekvenci LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007 DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial. ACCESSION EF443167 VERSION EF443167.1 GI:148832288 KEYWORDS . SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma. REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-Only REFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech Republic FEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP" ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca //

  13. ACCESSION Databázové přístupové číslo VERSION LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007 DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial. ACCESSION EF443167 VERSION EF443167.1 GI:148832288 KEYWORDS . SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma. REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-Only REFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech Republic FEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP" ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca // Verze dané sekvence

  14. KEYWORDS Pod kterými klíčovými slovy ji lze najít LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007 DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial. ACCESSION EF443167 VERSION EF443167.1 GI:148832288 KEYWORDS . SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma. REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-Only REFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech Republic FEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP" ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca //

  15. SOURCE Organismus + zařazení v systému LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007 DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial. ACCESSION EF443167 VERSION EF443167.1 GI:148832288 KEYWORDS . SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma. REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-Only REFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech Republic FEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP" ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca //

  16. REFERENCE LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007 DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial. ACCESSION EF443167 VERSION EF443167.1 GI:148832288 KEYWORDS . SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma. REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-Only REFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech Republic FEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP" ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca // Článek(y), kde byla daná sekvence publikována + autoři

  17. Pozice genu v rámci sekvence LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007 DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial. ACCESSION EF443167 VERSION EF443167.1 GI:148832288 KEYWORDS . SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma. REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-Only REFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech Republic FEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP" ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca // FEATURES Podrobný popis jednotlivých genů včetně jejich pozic – např. počátek a konec kódující sekvence, sekvence proteinu + XREFS

  18. LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007 DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial. ACCESSION EF443167 VERSION EF443167.1 GI:148832288 KEYWORDS . SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma. REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-Only REFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech Republic FEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP" ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca // ORIGIN Sekvence Konec sekvence

  19. Příklad • Vyhledejte sekvence cytochromu b ze všech druhů mamutů, které byly osekvenovány (jaké druhy?) • Exportujte protein-kódující část do FASTA formátu a uložte na počítač Postup: • GenBank na stránkách NCBI – ve vyhledávání možnosti “Nucleotide” - GenBank + RefSeq • Vyhledávání podle rodového názvu “Mammuthus” • Velké množství záznamů – omezit výběr pouze na neredundantní databázi RefSeq • Celý genom – použít webový formulář k výběru pouze sekvence cytochromu b (pozice v části SOURCE – CDS)

  20. Porovnání/přiřazení dvou a více sekvencí Při alignmentu předpokládána homologie sekvencí Využívány různé typy algoritmů = různé předpoklady Porovnání sekvencí: Alignment Sekvence se liší Sekvence se shodují Sekvence chybí

  21. Typy alignmentů • Pairwise Alignment (2 sekvence) • Globální (Needleman-Wunsch): • Zhruba stejně dlouhé sekvence • Snaží se přiřadit od začátku až do konce sekvence • Lokální (Smith-Waterman): • Jen nejlépe shodující se místa obou sekvencí • Sekvence různě dlouhé Např. BioEdit http://www.ebi.ac.uk/ http://www.bioinformatics.org/sms2/index.html http://en.wikipedia.org/wiki/Sequence_alignment

  22. Multiple Alignment • Více sekvencí • Hledá konzervativní místa • ClustalW, Muscle, T-coffee Např. BioEdit, http://www.ebi.ac.uk/, http://www.bioinformatics.org/ sms2/index.html http://en.wikipedia.org/wiki/Multiple_sequence_alignment

  23. Podobně jako v případě sekvencí – v textových souborech ve specifickém formátu Různé formáty: nejčastěji formát programu ClustalW (.aln) lze také jako multiple FASTA Phylip (.phy), NEXUS (.nex) – odpoledne Nově SAM (Sequence Alignment/Map format) – velké celogenomové alignmenty Uchovávání alignmentů

  24. BLAST Vyhledávání v jednotlivých referenčních genomech Základní BLAST – prohlédávání celé databáze pomocí nukleotidové sekvence

  25. BLAST Vložit sekvenci Zvolit “Others” Zvolit databázi, ve které chceme BLASTovat

  26. Příklad 1 • Vyhledejte sekvence nejpodobnější cytochromu b mamuta z tří jiných druhů • Vytvořte multiple FASTA soubor • Proveďte multiple alignment stažených sekvencích Postup: • BLAST na NCBI – „nucleotide blast” option - “reference genomic sequences” databáze (nonredundantní genomické sekvence) • Stáhnout protein-kódující sekvence cytochromu b • Vytvořit v libovolném textovém editoru multiple FASTA soubor • Provést multiple alignment (na EBI – na webu, BioEdit – na počítači) • EBI (www.ebi.ac.uk) – services – DNA & RNA – Clustal2W • BioEdit – Accessory Applications – ClustalW Multiple Alignment

  27. Příklad 2Úloha ze života • BLAST ke zjištění zdroje kontaminace – např. sekvenuji mamuty – nezdá se mi jedna se sekvencí Postup: • Jedna ze dvou sekvencí na stránkách praktika • BLAST - “nucleotide blast” option ???

  28. Maskování repeatů Design primerů In Silico PCR (e-PCR) Navržení primerů pro PCR

  29. Maskování repeatů: RepeatMasker http://www.repeatmasker.org/ • Umožní vyhledat a „zakrýt“ oblasti, které jsou v genomu ve větším počtu (mikrosatelity, retrotranspozony a transpozony) • Umožní nám to při navrhování primerů se vyvarovat nespecifickým amplifikacím při PCR • Pouze ale organismy, které jsou buď již osekvenovány anebo jsou jim blízce příbuzné (retrotransposony a transposony) X mikrosatelity lze maskovat u jakýchkoliv organismů

  30. Zamaskovaná sekvence • Pomocí N nebo použitím malých písmen (většina programů určených pro analýzu sekvencí s nimi umí pracovat) >MusY.1 ACACTTTTTCTTTTGCATAATGCTGTGTGGAGATTTTGCAGACAGCATTGCTGTAAAATGCAGAGTAATTTCTGTAATGAGCTTGTGAAATATTGACTATTATGGCCCTCTCTAAGCATGGCTTTAATTATATTCTAGCACAGCAGCTTCTCTGGGGATACTCAGGTCAGATCACTGACTGAATGTTGTGTTCATTTGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGTCATTTGTTGGTGTGCTGAATTCTGTTTTGTTTTGCTTTTAACCTAACTAGCTAGAAATTCTGTCAATCTTTTTTCCTTCCTAGAAAGANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGAAACACAGGCTTT

  31. RepeatMasker

  32. RepeatMasker Vložit nukleotidovou sekvenci Vybrat organismus

  33. RepeatMasker Výstup analýzy RepeatMaskeru

  34. RepeatMasker Výstup analýzy RepeatMaskeru

  35. Design primerů:Primer3, Primer3Plus http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi/ R TCCGAAAATCCCACCAATTATCAACGACTCATTC F

  36. TGCG{CGCTAAGA<CTCCT>AA[CACACACACA]CGGAATTAGGGAAC}TT Excluded Region Target Included Region

  37. Rozestup primerů => délka amplifikované oblasti Koncentrace Mg2+ Koncentrace dNTPs Maskování repeatů

  38. Elektronická PCR (e-PCR) • Vezme dvojici primerů a zkouší, zda-li by PCR ve známém genomu amplifikovala pouze námi požadovanou oblast nebo i jiné oblasti • Server UCSC (http://www.genome.ucsc.edu/) • Lze i na NCBI

  39. e-PCR

  40. e-PCR Organismus Assembly F a R primery

  41. Příklad • Sekvence mikrosatelitů z myšího Y chromosomu na stránkách praktik (vytvořte multiple FASTA) • Zamaskujte mikrosatelity pomocí RepeatMaskeru • Navrhněte kolem nich primery v Primer3 • Zjistěte, které z těchto primerů jsou dále použitelné pomocí e-PCR

  42. Genomický koordinátový systém – založený na fyzické pozici nukleotidů v rámci většího celku (např. kontigu, chromozomu) Tvoří pak tzv. fyzickou mapu (v base pairs: bp) např. u myši je začátek chromozomu na centromeře (pozice 1) např. gen SRY chrY:1,918,381-1,919,568 (přibližná pozice pak 1.9 Mb) Jiné mapy: cytogenetická mapa, genetická mapa (cM) Pozice genů v genomu

  43. Verze koordinátového systému Počáteční verze genomu postrádají hůře sekvenovatelné oblasti – jsou zaplněny Nky, ale postupně dochází k neustálému zpřesňování genomické sekvence = zpřesňování fyzické mapy Rozdíl ve fyzikální pozici genů mezi různými assembly (až několik Mb) Assembly Adh5 (Alcohol dehydrogenase 5) GRCm38 NCBIM37 chr3:138,106,057-138,118,463 chr3: 138,443,093-138,455,499

  44. Ensembl, UCSC, NCBI Nejvíce user-friendly asi Ensembl... Genomové prohlížeče VERZE

  45. Najděte tyto informace o genu Adh5 v myším genomu: Počet transkriptů, typ transkriptu? Kolik exonů má kanonický transkript? Jaká proteinová rodina (ID)? Kolik druhů dostupných na Ensembl má alespoň jeden ortholog tohoto genu? Ve kterém taxonu dostupném na Ensembl je největší počet homologů tohoto genu? Získejte protein-kódující sekvence genu (vždy kanonický transkript) pro všechny hlodavce na Ensemblu, exportujte je do FASTA formátu, proveďte alignment Příklad

  46. BioMart • Při práci s více geny – efektivní získávání dat • Pracuje na principu filtru – lze nastavit parametry výběru tzn. filtrovat na základě: • pozice v genomu • ID genů (konverze ID z různých databází) • genové rodiny • orthology • paralogy • ... • Výstup lze uložit jako .txt, .csv nebo .xls soubor

  47. BioMart (Ensembl)

  48. Dababáze Verze se aktualizuje každé cca 2-3 měsíce Důležité: pamatovat si verzi se kterou pracuji!!! Dataset = organismus

  49. Parametry výběru: kritéria definující set genů Požadovaná data ve výstupu Propojení s daty z jiných organismů (pokročilé)

More Related