1 / 61

Распознавание регуляторных сигналов

Распознавание регуляторных сигналов. Факультет биоинженерии и биоинформатики МГУ, первый набор, второй курс. Май 2004 М. Гельфанд (лекции) Д. Равчеев (задания) А. Герасимова, Э. Пермина (занятия) В.Ю. Макеев (некоторые слайды). Транскрипция и трансляция в прокариотах.

merry
Download Presentation

Распознавание регуляторных сигналов

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ, первый набор, второй курс. Май 2004 М. Гельфанд (лекции) Д. Равчеев (задания) А. Герасимова, Э. Пермина (занятия) В.Ю. Макеев (некоторые слайды)

  2. Транскрипция и трансляция в прокариотах

  3. Сплайсинг (эукариоты)

  4. Инициация транскрипции

  5. Регуляция транскрипции в прокариотах

  6. Структура ДНК-связывающего домена (cI)

  7. Структура ДНК-связывающего домена (Cro)

  8. Белок-ДНКовые взаимодействия

  9. Регуляция транскрипции у эукариот

  10. Регуляторные модули (В.А.Макеев) • Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях • Расстояние от регуляторного модуля до кодирующих областей может достигать 100 000 пар оснований

  11. Представление сигналов • Консенсус • Pattern («образец» - консенсус с вырожденными позициями) • Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile • Логические правила • РНКовые сигналы – вторичная структура

  12. Консенсус codB CCCACGAAAACGATTGCTTTTT purE GCCACGCAACCGTTTTCCTTGC pyrD GTTCGGAAAACGTTTGCGTTTT purT CACACGCAAACGTTTTCGTTTA cvpA CCTACGCAAACGTTTTCTTTTT purC GATACGCAAACGTGTGCGTCTG purM GTCTCGCAAACGTTTGCTTTCC purH GTTGCGCAAACGTTTTCGTTAC purL TCTACGCAAACGGTTTCGTCGG consensus ACGCAAACGTTTTCGT

  13. Образец codB CCCACGAAAACGATTGCTTTTT purE GCCACGCAACCGTTTTCCTTGC pyrD GTTCGGAAAACGTTTGCGTTTT purT CACACGCAAACGTTTTCGTTTA cvpA CCTACGCAAACGTTTTCTTTTT purC GATACGCAAACGTGTGCGTCTG purM GTCTCGCAAACGTTTGCTTTCC purH GTTGCGCAAACGTTTTCGTTAC purL TCTACGCAAACGGTTTCGTCGG consensus ACGCAAACGTTTTCGT pattern aCGmAAACGtTTkCkT

  14. Матрица частот Информационное содержание I = j bf(b,j)[log f(b,j) / p(b)]

  15. Logo

  16. Позиционная весовая матрица (профиль)

  17. Вероятностная мотивировка: лог-правдоподобие (с точностью до линейного преобразования) • Ещё одна: z-score (при соответствующем основании логарифма) • Термодинамическая мотивировка: свободная энергия (в предположении независимости соседних позиций) • Псевдоотсчеты (pseudocounts)

  18. Логические правила, деревья и т.п. – учет зависимостей

  19. Составление выборки • Начало: • GenBank • специализированные банки данных • литература (обзоры) • литература (оригинальные статьи) • Исправление ошибок • Проверка литературных данных • предсказанные сайты. • Удаление дубликатов

  20. Перевыравнивание • Первоначальное выравнивание по биологическим признакам • промоторы: старт транскрипции • участки связывания рибосом: стартовый кодон • сайты сплайсинга: экзон-интронные границы • Выделение сигнала в скользящем окне • Перевыраванивание • и т.д., пока не сойдётся

  21. Начала генов Bacillus subtilis dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG

  22. dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG cons. aaagtatataagggagggttaataATG num. 001000000000110110000000111 760666658967228106888659666

  23. dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG cons. tacataaaggaggtttaaaaat num. 0000000111111000000001 5755779156663678679890

  24. Позиционное информационное содержание до и после перевыравнивания

  25. позиционные частоты после перевыравнивания (паттерн aGGAGG)

  26. Поиск сигнала с самого начала(ab initio) • “дискретные” подходы: считать слова и образцы • “непрерывные” подходы: оптимизация профиля

  27. Как считать короткие слова • Рассмотрим все слова длиныk(k-меры) • Для каждогоk-меравычислим количество последовательностей, которые его содержат • (не обязательно в точности) • Выберем самый частыйk-мер

  28. Проблема:Полный перебор возможен только для относительно коротких слов Предположение: если длинное слово встречается часто, его подслова тоже будут часто встречаться Решение: выбрать набор частых коротких слов и склеить в длинное

  29. Как считать длинные слова • Рассмотримнекоторыеk-меры • Для каждогоk-меравычислим количество последовательностей, которые его содержат • (не обязательно в точности) • Выберем самый частыйk-мер

  30. Проблема: «некоторые» k-меры- это какие? 1япопытка:те, которые встречаются в выборке Но:сигнал (консенсусный k-мер)может и не встретиться.

  31. 2япопытка:те, которые встречаются в выборке и похожие на них. Но: • опять же, сигнал может и не попасть в это множество; • а размер множества «похожих» слов растёт экспоненциально

  32. Теоретико-графовый подход Каждыйk-мерв каждой последовательности соответствует вершине. Дваk-мера соединены ребром, если они похожи (например,отличаются не более, чем вhпозиций,h<<k). Получаетсяn-дольныйграф (n– количество последовательностей). Сигнал соответствует клике (полному подграфу) – или по крайней мере плотному графу – с вершинами в каждой доле

  33. Простой алгоритм • Удалить все вершины, которые не могут быть продолжены до полных графов • то есть, не имеют ребер во все доли • Из списка пар вершин удалить все, которыене могут быть продолжены до полных графов • то есть не образуют треугольники с третьими вершинами во всех долях • И т.д.. (не будет в такой форме работать для поиска плотных подграфов)

  34. Оптимизация. Expectation - Maximization • Породим начальное множество профилей (например, каждый из имеющихсяk-меров породит один профиль) • Для каждого профиля: • найти наилучшего представителяв каждой последовательности • обновить профиль • Повторять пока не сойдётся

  35. Этот алгоритм сходится, но не может покинуть область локального максимума. Поэтому если начальное приближение было плохим, он сойдётся к ерунде. Решение: стохастическая оптимизация.

  36. Имитация теплового отжига • Цель: максимизировать информационное содержаниеI I = j bf(b,j)[log f(b,j) / p(b)] • или любой другой функционал, измеряющий однородность множества сайтов

  37. Алгоритм Обозначим: A– текущий сигнал (множество потенциальных сайтов), I(A) – его информационное содержание. B– сигнал, отличающийся от А выбором сайта в одной последовательности, I(B)– его информационное содержание. • еслиI(B)  I(A), Bпринимается • еслиI(B) < I(A), Bпринимается с вероятностью P =exp [(I(B) – I(A)) / T] ТемператураTмедленно снижается, первоначально она такова, что почти все изменения принимаются (Р близко к 1).

  38. Gibbs sampler Опять, A – сигнал, I(A) – его информационное содержание. На каждом шаге в одной последовательности выбирается новый сайт с вероятностью P ~exp [(I(Anew)] Для каждого потенциального сайта подсчитывается, сколько раз он был выбран. (Замечание: сигнал всё время меняется)

  39. Использование свойств сигнала • ДНК-связывающие белки и их сигналы • Кооперативные однородные • палиндромы • прямые повторы • Кооперативные неоднородные • кассеты • Другие • РНКовые сигналы

  40. Распознавание: весовые матрицы (профили) Позиционные веса нуклеотидов W(b,j)=ln(N(b,j)+0.5) – 0.25iln(N(i,j)+0.5) Вес потенциального сайтаb1…bk – это сумма соответствующих позиционных весов: S(b1…bk ) = j=1,…,kW(bj,j)

  41. Усиление слабого сигнала

  42. Распределение весов сайтов связывания рибосом на сайтах (зеленый) и не-сайтах (красный)

  43. Нейронные сети: архитектура • 4kвходных нейронов (сенсоров), присутствиеконкретного нуклеотида в конкретной позиции(да/нет) или 2kнейронов (пурин/пиримидин, AT/GC) • один или более слоёв внутренних нейронов • один выходной нейрон (сайт/не-сайт)

  44. каждый нейрон связан соединениями с нейронами соседнего уровня • каждому соединению приписан вес Нейрон: • суммирует (с весами) входящие сигналы • сравнивает результат с порогом (или преобразует по заданному правилу) • если сумма выше порога, отправляет сигнал всем нейронам следующего уровня (или просто преобразованное значение)

  45. Обучение: • Обработать сайты и не-сайты из обучающей выборки одни за одним, несколько полных итераций. • Для каждого объекта сделать предсказание. • Если оно неправильное, изменить веса. Сети отличаются архитектурой, способом обработки сигнала, расписанием обучения

  46. Оценка качества алгоритмов Чувствительность: правильно предсказанные / все правильные Специфичность:правильно предсказанные / все предсказанные • Трудно составить тестирующую выборку: • неизвестные сайты • активация в определенных условиях • неспецифическое связывание

  47. ПромоторыE. coli • профиль, предсказывающий 1 сайт на 2000 нт, имеет чувствительность: • 25% на всех промоторах, • 60% на конститутивных (неактивируемых) промоторах

  48. Эукарио-тические промоторы

More Related