1 / 24

Сравнительный анализ последовательностей ДНК

Сравнительный анализ последовательностей ДНК. БиБи 4 курс Осень 2005. Идентификация генов. Новый геном = > нет обучающей выборки «Псевдообучение» Длинные открытые рамки считывания (ОРС) Открытые рамки, гомологичные известным генам «Самосогласование»

zoe
Download Presentation

Сравнительный анализ последовательностей ДНК

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Сравнительный анализ последовательностей ДНК БиБи 4 курс Осень 2005

  2. Идентификация генов • Новый геном => нет обучающей выборки • «Псевдообучение» • Длинные открытые рамки считывания (ОРС) • Открытые рамки, гомологичные известным генам • «Самосогласование» • Режем на фрагменты, делим на два кластера, обучаемся • Предсказываем • Переобучаемся • Etc. • Сравнение с родственными геномами • CRITICA: (пара) ОРС=ген, если сходство на уровне аминокислотных последовательностей выше, чем можно было бы ожидать для формальных транслятов при заданном уровне сходства нуклеотидных последовательностей

  3. rbsDв энтеробактериях Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

  4. rbsDв энтеробактериях: ответ Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

  5. Паттерн нуклеотидных заменв белок-кодирующих областях:pdxBв энтеробактериях Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Stm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Sen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Eco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATT Kpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATG Ype TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * * Sty AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGG Stm AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Sen AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Eco ACGTATCCTTATAC----------CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGG Kpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAG Ype ATGTTTCAGCAAATAT--------CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** ** Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Stm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Sen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Eco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC Kpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT Ype CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** 123123123123123123123123123123123123123

  6. Белковое выравнивание (ribD) Eco V_____QDEYYMARALKLAQRGRFTTHPNPNVGCVIVKDGEIVGEGYHQRAGEPHAEVHA QD +M RAL LA +G +TT PNP VGCV VK+GEIVGEG+H +AG+PHAE A Hin MLEFSSQDCVFMQRALDLAAKGQYTTTPNPSVGCVLVKNGEIVGEGFHFKAGQPHAERVA Eco GCGCGCCTGGAGGACTAA----G----------CCGTGCAGGAC-GAGTATTACATGGCGCGGGCGCTAA * * **** *** * ** ** ** * ***** *** ** ** ** Hin GAAAAATTAAAGGATTAATTATGCTTGAATTTTCCTCACAAGATTGCGTATTT-ATGCAACGTGCCTTAG

  7. Множественное выравнивание REC06584       109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRECO04717      109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRECS04752      109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRTY01088        51 tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaatRSY05814        51 tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaatREO01497        66 atagcgcctgtttgatttcattgaattggggaaggcgtgtctacggcggaagtattgaatRYPK00397       45 gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaacRYP04048        45 gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaacRYE04903        44 aaccggcctgtgcagatctcatagttggggaatagtgtgtcaaccgcagcagtgataaatRVFI01204        0 ........tattattgatgagttttttatgtccagcatgatcgcagagcaaccaatggaaREC06584            f  l  f  q  a  i  g  v  n  =  =  = V A  Q  A  E  V  L  N RECO04717           f  l  f  q  a  i  g  v  n  =  =  = V A  Q  A  E  V  L  N RECS04752           f  l  f  q  a  i  g  v  n  =  =  = V A  Q  A  E  V  L  N RTY01088            *  r  l  f  *  f  m  v  n  g  v  n V A  Q  A  E  V  L  N RSY05814            *  r  l  f  *  f  m  v  n  g  v  n V A  Q  A  E  V  L  N REO01497            i  a  p  v  *  f  h  *  i  g  e  g V S  T  A  E  V  L  N RYPK00397           a  g  l  c  r  s  n  s  w  g  k  s V S  T  A  A  V  I  N RYP04048            a  g  l  c  r  s  n  s  w  g  k  s V S  T  A  A  V  I  N RYE04903            n  r  p  v  q  i  s  *  l  g  n  s V S  T  A  A  V  I  N RVFI01204           .  .  .  i  i  d  e  f  f  m  s  s M I  A  E  Q  P  M  E 

  8. Эукариоты: сплайсированное выравнивание • Ген с известными гомологами (Procrustes, GeneWise) • Операция вставки интрона • Блочная модель • Использование сходства (BLAST) как дополнительного параметра (GenomeScan) • Отступление: динамическое программирование в задаче распознавания генов • Вершины – сайты, ребра – экзоны и интроны • Квадратичное количество ребер, линейное время оценки веса ребра • Вершины – сайты («рельсовый граф») • Линейное количество ребер • Ген без известных гомологов, но в двух геномах • Экзон-интронная структура в нуклеотидном выравнивании (Rosetta, SGP) • Геномное сплайсированное выравнивание (Pro-Gene – динамическое программирование, DoubleScan – HMM распознавание+выравнивание, SLAM).

  9. Динамическое программирование Четвертая степень, если всякий раз выбирать оптимальный интрон, но внутри прямоугольника это делается один раз

  10. Matching intergenic interval Match in exon Insertion in exon Match in exon Match in intron Insertion in intron Match in intron Match in exon Match in intron Match in exon Inserted intron Match in exon Matching intergenic region HMM (DoubleScan)

  11. Регуляция транскрипции • Phylogenetic footprinting – прокариоты. MENTERIC, Gibbs samplers • Phylogenetic footprinting – эукариоты. rVISTA • Phylogenetic shadowing • Проверка соответствия (consistency check). Регулоги

  12. Low conservation in upstream region

  13. High conservation in upstream region

  14. Menteric

  15. Multiple sites (nrd genes): FNR, DnaA, NrdR

  16. nrdD:пром.DnaAFNRNrdR

  17. Phylogenetic Shadowing (E.Rubin’s lab)

  18. Ген apo(a) есть только у приматов

  19. Set of known sites Profile Consistency filtering: the basic procedure Genome 1 Genome 2 Genome N

  20. Accounting for the operon structure

  21. Regulogger (W.Wasserman) Упражнение: чем это плохо?

  22. микроРНК • ~22 нуклеотида • Комплементарны мРНК (неточно, 3’-конец – животные; точно, кодирующая область - растения) • Подавляют трансляцию или способствуют деградации мРНК (растения) • Предшественник – шпилька специального вида, длина ~70 нт. • Человек – минимум 800 (экспериментально > 200), дрозофила – 200, нематода – 100, растения – минимум сотня • Независимые гены (м.б. полицистронные) или в интронах • Регулируют минимум треть генов человека • В основном – гены развития?

  23. Как искать • Экспериментально • Консервативность • В далекихгеномах • В близких геномах – shadowing • Наличие и консервативность мишеней (трудно, если в белок-кодирующей области) • Синтения, кластеризация генов • Кластеризация сайтов в мРНК-мишенях • Проверка функции

More Related