160 likes | 172 Views
Explore nucleotide sequences, their nomenclature, reading and writing rules, DNA structure, and the impact of the growing number of known sequences.
E N D
gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca aattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgaga tgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattg agtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccg actctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagt tgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatc aagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaaggga tcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgacttgc gagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtagcacct tgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatg ccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagc gctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaag aagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttgc gcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacacca ttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttag Нуклеотидные последовательности(номенклатура, правила записи и чтения) gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca aattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgaga tgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattg agtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccg actctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagt tgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatc aagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaaggga tcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgacttgc gagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtagcacct tgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatg ccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagc gctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaag aagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttgc gcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacacca ttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttag
Повторяем: • фосфодиэфирные связи; • сахарофосфатный остов; • антипараллельные цепи; • 3'- и 5'- конец; • канонические пары. ДНК
Рост числа известных последовательностей Почему?
3’ 5’ ATCGTGCAGTGCGTAAACGTAGCAGTCGA ДНК РНК UACGACGUCACGCAU 3’ 5’ Запись: • Последовательность = последовательность однобуквенных символов. • Никаких дефисов и обозначений фосфодиэфирных связей. ДНК AGCTGACGATGCAAATGCGTGACGTGCTA 5’ 3’ РНК UACGACGUCACGCAU Направление: 5’ -> 3’ Одни и те же буквы используются для записи ДНК и РНК (исключение: U)
Общепринятые однобуквенные обозначения для стандартных азотистыхоснований(остатков нуклеозидов и нуклеотидов) и вырожденных позиций в выравниваниях нуклеиновых кислот http://www.bioinformatics.org/sms/iupac.html http://www.chick.manchester.ac.uk/SiteSeer/IUPAC_codes.html
Банки данных нуклеотидных последовательностей AAATTG AGCTGAAA ATGCGATCGATC GCGTGC TTGC ATCGTAGCT GGGGCCCTCG CGCG ATTGC ATC ACGTA AAATTTCGCG AAA ATCTG
SRA Trace Archive DDBJ GenBank EMBL INSDC (International Nucleotide Sequence Database Collaboration)
GenBank EMBL DDBJ • банки-архивы • обмениваются данными • 1 запись = 1 эксперимент • границы экспериментальные, а не естественные
ID - identification (begins each entry; 1 per entry)AC - accession number (>=1 per entry)PR - project identifier (0 or 1 per entry)DT - date (2 per entry)DE - description (>=1 per entry)KW - keyword (>=1 per entry)OS - organism species (>=1 per entry)OC - organism classification (>=1 per entry)OG - organelle (0 or 1 per entry)RN - reference number (>=1 per entry)RC - reference comment (>=0 per entry)RP - reference positions (>=1 per entry)RX - reference cross-reference (>=0 per entry)RG - reference group (>=0 per entry)RA - reference author(s) (>=0 per entry)RT - reference title (>=1 per entry)RL - reference location (>=1 per entry)DR - database cross-reference (>=0 per entry)CC - comments or notes (>=0 per entry)AH - assembly header (0 or 1 per entry) AS - assembly information (0 or >=1 per entry)FH - feature table header (2 per entry)FT - feature table data (>=2 per entry) XX - spacer line (many per entry)SQ - sequence header (1 per entry)CO - contig/construct line (0 or >=1 per entry) bb - (blanks) sequence data (>=1 per entry)// - termination line (ends each entry; 1 per entry)
FT Key Location/Qualifiers=value http://www.ebi.ac.uk/embl/WebFeat/index.html
SRA Trace Archive DDBJ GenBank EMBL INSDC (International Nucleotide Sequence Database Collaboration)
Нуклеотидные банки NCBI RefSeq GenBank - содержит то же, что EMBL • http://www.ncbi.nlm.nih.gov/refseq/ • 1 запись = 1 последовательность • Границы естественные, а не экспериментальные Genome - Включает последовательности полных геномов
Нуклеотидные банки NCBI Nucleotide • виртуальный банк • включает все перечисленное
Методы поиска • SRS • http://www.dkfz.de/menu/cgi-bin/srs7.1.3.1/wgetz?-page+top • Поиск NCBI • http://www.ncbi.nlm.nih.gov/ • ENA • http://www.ebi.ac.uk/ena/ • MRS • http://mrs.cmbi.ru.nl/m6/