1 / 39

Использование биоинформатики в практической молекулярной биологии

Использование биоинформатики в практической молекулярной биологии. И.И. Артамонова, ИОГен РАН. План. Гомологи и сходство последовательностей Что можно выяснить на основании множественного выравнивания гомологов Филогенетический анализ и восстановлении эволюции.

bracha
Download Presentation

Использование биоинформатики в практической молекулярной биологии

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Использование биоинформатики в практической молекулярной биологии И.И. Артамонова, ИОГен РАН

  2. План Гомологи и сходство последовательностей Что можно выяснить на основании множественного выравнивания гомологов Филогенетический анализ и восстановлении эволюции

  3. Почему нас интересует локальное сходство последовательностей? Мы верим, что: 1. функцию, структуру и многие другие свойства белка/ДНК определяет последовательность; • родственные белки имеют похожие свойства • молекулы, похожие по последовательности, похожи и по свойствам Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

  4. Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка) Признаки гомологичности белков • сходная 3D-структура • в той или иной степени похожая аминокислотная последовательность • аналогичная функция • разные другие соображения…

  5. Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

  6. Средство поиска сходства - выравнивание «Идеальное» выравнивание – запись последовательностей одна под другойтак, чтобы гомологичные фрагментыоказались друг под другом. домовойскупидомводомерка лесовоз ---лесо---воз ледоход лед---оход---

  7. Схожие 3D структуры Вставка в «синей» последовательности

  8. Как выровнять две последовательности? Цель - максимальное количество совпадений • Просто написать их друг под другом • Двигать друг относительно друга • Вставлять пробелы лесовоз ---лесо---воз ледоход лед---оход--- Гэп – пропуск в последовательности

  9. Типы выравнивания • Локальное – поиск фрагментов наиболее похожих друг на друга домовой домовой домовой скупидомводомеркаводомерка • Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару лесовоз ---лесо---воз ледоход лед---оход--- ?

  10. Критерии качества выравнивания • Количество идентичных (похожих) аминокислот/нуклеотидов • Для белков – более 25%id при длине > 100 aa • Для ДНК – более 70%id при длине > 100 nt • Длина выравнивания • Вероятность наблюдать такое сходство случайным образом • Зависит от базы данных • Score – общая мера сходства: • Зависит от программы

  11. BLAST – Basic Local Alignment and Search Tool • Локальное выравнивание • Главная задача – поиск похожих последовательностей в базах данных (=> главное достоинство – скорость) • Очень неточно восстанавливает сходство • Основная программа поиска по БД • Для специализированных БД часто предлагается на сайте БД • Для поиска среди известных последовательностей есть специальные сервера

  12. Выбор параметров • Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций) • Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу

  13. Какие параметры менять? Фильтрация • Low-complexity region – другой aa-состав • Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации • Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную • ДНК – геном-специфичные повторы!

  14. Параметры выравнивания • Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM • Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80 вместо BLOSUM45 – более короткие выравнивания) • РАМ – чем ниже, тем строже • Штрафы за делеции: • Чем больше штраф за внесение, тем короче выравнивания • Меняете матрицу – надо менять и штраф • Чем ниже номер BLOSUM (выше РАМ),тем меньше штраф за внесение делеции • Штраф за удлинение ~10 раз ниже, чем за внесение • Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение • Близкие гомологи – штрафы ближе друг к другу

  15. Параметры output-формата • Количество хитов • Выбор базы данных (организм) • Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные) • Entrez query – ключевые слова (например, “protease AND human”)

  16. Что такое множественное выравнивание? Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом: • Гомологичные остатки один под другим • Остатки в одинаковом пространственном положении один под другим • Остатки, имеющие одинаковую функциональную нагрузку, один под другим • Одинаковые или похожие остатки один под другим

  17. Какое выравнивание интереснее?

  18. Какие бывают выравнивания? Выравнивания парные множественные глобальные локальные глобальные локальные

  19. Зачем нужно множественное выравнивание? • Перенос аннотации • Предсказание функции каждого остатка (например, выявление остатков, составляющих активный центр фермента) • Моделирование 3D – структуры • Реконструкция эволюционной истории последовательности (филогения) • Выявление паттерна функциональных семейств и сигналов в ДНК • Построение доменных профайлов • Аккуратный дизайн праймеров для PCR анализа

  20. Как выбрать последовательности для множественного выравнивания? • Выравнивайте белки, а не ДНК, если есть выбор • Последовательностей лучше много, но не слишком (~ 10-15) • В выборке лучше избегать: • слишком похожих последовательностей (>90% id) • слишком разных последовательностей (<30% id c большинством) • неполных последовательностей (фрагментов) • тандемных повторов

  21. Изучая новую последовательность • Выборка на основе BLAST • Подробно охарактеризованные последовательности - аннотация • Совсем неохарактеризованные (hypothetical proteins) – достаточный уровень разнообразия • Выравнивание по всей длине • e-value – 10 -40 – 10 -6 • Избегать partial sequences

  22. Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): • Алгоритм ClustalW (реализации ClustalX, emmaиз EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, http://www.ebi.ac.uk/Tools/clustalw/index.html) • Muscle– быстрее и немного точнее, самый новый и довольно модный (http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py, http://www.ebi.ac.uk/Tools/muscle/index.html) • T-COFFEE – заметно точнее, но существенно медленнее (http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)

  23. TCoffee • Построение множественных выравниваний • Оценка достоверности существующего выравнивания • Использование 3-D структуры при построении выравнивания • Сравнение и комбинирование выравниваний

  24. JalView – редактирование выравниваний Другие программы для редактирования выравниваний (stand-alone): GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSE Список - http://bioweb.pasteur.fr/cgi-bin/seqanal/review-edital.pl

  25. Как “читать” множественное выравнивание? • Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями • ДНК – консервативные “островки” • Качество – score, локально важно • “consensus” – строка с символами “*”, “:”, “.” – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно

  26. Если консервативны только отдельные столбцы • W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой • G,P - фланкируют бета-стренды и альфа-спирали • С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между • H,S – каталитические центры протеаз • K, R, D, E – заряженные аминокислоты, участвуют в связывании лигандов • L – редко консервативны. Формируют leucine zipper – белок-белковые взаимодействия

  27. Что такое филогенетическое дерево? • Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий. • Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств

  28. Зачем нужны филогенетические деревья? Биологические задачи: • сравнение 3-х и болееобъектов (кто на кого более похож ....) • реконструкция эволюции • (кто от кого, как и когда произошел…)

  29. Основные термины Узел (node) — точка разделения предковой последовательности(вида, популяции) на две независимо эволюционирующие.Соответствует внутренней вершине графа, изображающего эволюцию. Лист(leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа. Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.Корень (root) — гипотетический общий предок. Клада (clade) - группа двух или более таксонов или последователь- ностей ДНК, которая включает как своего общего предка, так и всех его потомков.

  30. Рутинная процедура, или как строят деревья? Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: Визуализация и редактура дерева (((((con101:38.51018,(f53969:28.26973,((f67220:8.39851, max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,

  31. Скобочная формула (Newick format) 5.2 7.5 5.5 7.7 6.3 3.2 6.1 B C E A 8.0 D (((C,D),E)),(A,B));только топология (((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5);длины ветвей

  32. Как выбирать последовательности для дерева? • Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК) • Придерживайтесь небольшой выборки (< 50 последовательностей) • Избегайте: • фрагментов; • ксенологов; • рекомбинантных последовательностей; • многодоменных белков и повторов • Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)

  33. Самое главное – хорошее выравнивание! • Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию • Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.

  34. Методы, основанные на оценке расстояний (матричные методы): Вычисляются эволюционные расстояния между всеми листьями (OTUs) и строится дерево, в котором расстояния между вершинами наилучшим образом соответствуют матрице попарных расстояний. UPGMA Neighbor-joining Минимальная эволюция Квартеты («топологический») ... Наибольшего правдоподобия, Maximal likelihood,ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных Основные алгоритмы построения филогенетических деревьев

  35. Как понимать расстояние между объектами? • Как время, в течение которого они эволюционировали • Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно

  36. Метод ближайших соседей (Neighbor-joining,NJ) • Строит неукоренённое дерево • Может работать с большим количеством данных • Достаточно быстрый • Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено. • Могут появиться ветви с длиной <0

  37. Как можно нарисовать построенное дерево? Arabidopsis Arabidopsis Caenorhabditis Caenorhabditis Drosophila Drosophila Anopheles Anopheles Tenebrio Tenebrio Trout Trout Mus Mus 0.1 substitutions per site Филограмма: Длина ребер пропорциональна эволюционному расстоянию между узлами. Кладограмма: представлена только топология, длина ребер игнорируется.

  38. Достоверность топологии. Bootstraps Есть множественное выравнивание и построенноепо нему дерево. Верим ли мы в топологию дерева? • Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний • случайный набор столбцов из исходного (выборка с возвращением!) • Построим N деревьев: на каждой внутренней ветви отметим долюслучаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80% . Если меньше 50%, то не верим. В иных случаях – думаем…

  39. MEGA: филогенетический анализ последовательностей http://www.megasoftware.net/

More Related