Использование биоинформатики в практической молекулярной биологии

Использование биоинформатики в практической молекулярной биологии И.И. Артамонова, ИОГен РАН

План Гомологи и сходство последовательностей Что можно выяснить на основании множественного выравнивания гомологов Филогенетический анализ и восстановлении эволюции

Почему нас интересует локальное сходство последовательностей? Мы верим, что: 1. функцию, структуру и многие другие свойства белка/ДНК определяет последовательность; • родственные белки имеют похожие свойства • молекулы, похожие по последовательности, похожи и по свойствам Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка) Признаки гомологичности белков • сходная 3D-структура • в той или иной степени похожая аминокислотная последовательность • аналогичная функция • разные другие соображения…

Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

Средство поиска сходства - выравнивание «Идеальное» выравнивание – запись последовательностей одна под другойтак, чтобы гомологичные фрагментыоказались друг под другом. домовойскупидомводомерка лесовоз ---лесо---воз ледоход лед---оход---

Схожие 3D структуры Вставка в «синей» последовательности

Как выровнять две последовательности? Цель - максимальное количество совпадений • Просто написать их друг под другом • Двигать друг относительно друга • Вставлять пробелы лесовоз ---лесо---воз ледоход лед---оход--- Гэп – пропуск в последовательности

Типы выравнивания • Локальное – поиск фрагментов наиболее похожих друг на друга домовой домовой домовой скупидомводомеркаводомерка • Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару лесовоз ---лесо---воз ледоход лед---оход--- ?

Критерии качества выравнивания • Количество идентичных (похожих) аминокислот/нуклеотидов • Для белков – более 25%id при длине > 100 aa • Для ДНК – более 70%id при длине > 100 nt • Длина выравнивания • Вероятность наблюдать такое сходство случайным образом • Зависит от базы данных • Score – общая мера сходства: • Зависит от программы

BLAST – Basic Local Alignment and Search Tool • Локальное выравнивание • Главная задача – поиск похожих последовательностей в базах данных (=> главное достоинство – скорость) • Очень неточно восстанавливает сходство • Основная программа поиска по БД • Для специализированных БД часто предлагается на сайте БД • Для поиска среди известных последовательностей есть специальные сервера

Выбор параметров • Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций) • Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу

Какие параметры менять? Фильтрация • Low-complexity region – другой aa-состав • Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации • Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную • ДНК – геном-специфичные повторы!

Параметры выравнивания • Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM • Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80 вместо BLOSUM45 – более короткие выравнивания) • РАМ – чем ниже, тем строже • Штрафы за делеции: • Чем больше штраф за внесение, тем короче выравнивания • Меняете матрицу – надо менять и штраф • Чем ниже номер BLOSUM (выше РАМ),тем меньше штраф за внесение делеции • Штраф за удлинение ~10 раз ниже, чем за внесение • Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение • Близкие гомологи – штрафы ближе друг к другу

Параметры output-формата • Количество хитов • Выбор базы данных (организм) • Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные) • Entrez query – ключевые слова (например, “protease AND human”)

Что такое множественное выравнивание? Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом: • Гомологичные остатки один под другим • Остатки в одинаковом пространственном положении один под другим • Остатки, имеющие одинаковую функциональную нагрузку, один под другим • Одинаковые или похожие остатки один под другим

Какое выравнивание интереснее?

Какие бывают выравнивания? Выравнивания парные множественные глобальные локальные глобальные локальные

Зачем нужно множественное выравнивание? • Перенос аннотации • Предсказание функции каждого остатка (например, выявление остатков, составляющих активный центр фермента) • Моделирование 3D – структуры • Реконструкция эволюционной истории последовательности (филогения) • Выявление паттерна функциональных семейств и сигналов в ДНК • Построение доменных профайлов • Аккуратный дизайн праймеров для PCR анализа

Как выбрать последовательности для множественного выравнивания? • Выравнивайте белки, а не ДНК, если есть выбор • Последовательностей лучше много, но не слишком (~ 10-15) • В выборке лучше избегать: • слишком похожих последовательностей (>90% id) • слишком разных последовательностей (<30% id c большинством) • неполных последовательностей (фрагментов) • тандемных повторов

Изучая новую последовательность • Выборка на основе BLAST • Подробно охарактеризованные последовательности - аннотация • Совсем неохарактеризованные (hypothetical proteins) – достаточный уровень разнообразия • Выравнивание по всей длине • e-value – 10 -40 – 10 -6 • Избегать partial sequences

Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): • Алгоритм ClustalW (реализации ClustalX, emmaиз EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, http://www.ebi.ac.uk/Tools/clustalw/index.html) • Muscle– быстрее и немного точнее, самый новый и довольно модный (http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py, http://www.ebi.ac.uk/Tools/muscle/index.html) • T-COFFEE – заметно точнее, но существенно медленнее (http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)

TCoffee • Построение множественных выравниваний • Оценка достоверности существующего выравнивания • Использование 3-D структуры при построении выравнивания • Сравнение и комбинирование выравниваний

JalView – редактирование выравниваний Другие программы для редактирования выравниваний (stand-alone): GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSE Список - http://bioweb.pasteur.fr/cgi-bin/seqanal/review-edital.pl

Как “читать” множественное выравнивание? • Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями • ДНК – консервативные “островки” • Качество – score, локально важно • “consensus” – строка с символами “*”, “:”, “.” – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно

Если консервативны только отдельные столбцы • W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой • G,P - фланкируют бета-стренды и альфа-спирали • С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между • H,S – каталитические центры протеаз • K, R, D, E – заряженные аминокислоты, участвуют в связывании лигандов • L – редко консервативны. Формируют leucine zipper – белок-белковые взаимодействия

Что такое филогенетическое дерево? • Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий. • Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств

Зачем нужны филогенетические деревья? Биологические задачи: • сравнение 3-х и болееобъектов (кто на кого более похож ....) • реконструкция эволюции • (кто от кого, как и когда произошел…)

Основные термины Узел (node) — точка разделения предковой последовательности(вида, популяции) на две независимо эволюционирующие.Соответствует внутренней вершине графа, изображающего эволюцию. Лист(leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа. Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.Корень (root) — гипотетический общий предок. Клада (clade) - группа двух или более таксонов или последователь- ностей ДНК, которая включает как своего общего предка, так и всех его потомков.

Рутинная процедура, или как строят деревья? Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: Визуализация и редактура дерева (((((con101:38.51018,(f53969:28.26973,((f67220:8.39851, max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,

Скобочная формула (Newick format) 5.2 7.5 5.5 7.7 6.3 3.2 6.1 B C E A 8.0 D (((C,D),E)),(A,B));только топология (((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5);длины ветвей

Как выбирать последовательности для дерева? • Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК) • Придерживайтесь небольшой выборки (< 50 последовательностей) • Избегайте: • фрагментов; • ксенологов; • рекомбинантных последовательностей; • многодоменных белков и повторов • Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)

Самое главное – хорошее выравнивание! • Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию • Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.

Методы, основанные на оценке расстояний (матричные методы): Вычисляются эволюционные расстояния между всеми листьями (OTUs) и строится дерево, в котором расстояния между вершинами наилучшим образом соответствуют матрице попарных расстояний. UPGMA Neighbor-joining Минимальная эволюция Квартеты («топологический») ... Наибольшего правдоподобия, Maximal likelihood,ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных Основные алгоритмы построения филогенетических деревьев

Как понимать расстояние между объектами? • Как время, в течение которого они эволюционировали • Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно

Метод ближайших соседей (Neighbor-joining,NJ) • Строит неукоренённое дерево • Может работать с большим количеством данных • Достаточно быстрый • Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено. • Могут появиться ветви с длиной <0

Как можно нарисовать построенное дерево? Arabidopsis Arabidopsis Caenorhabditis Caenorhabditis Drosophila Drosophila Anopheles Anopheles Tenebrio Tenebrio Trout Trout Mus Mus 0.1 substitutions per site Филограмма: Длина ребер пропорциональна эволюционному расстоянию между узлами. Кладограмма: представлена только топология, длина ребер игнорируется.

Достоверность топологии. Bootstraps Есть множественное выравнивание и построенноепо нему дерево. Верим ли мы в топологию дерева? • Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний • случайный набор столбцов из исходного (выборка с возвращением!) • Построим N деревьев: на каждой внутренней ветви отметим долюслучаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80% . Если меньше 50%, то не верим. В иных случаях – думаем…

MEGA: филогенетический анализ последовательностей http://www.megasoftware.net/

Использование биоинформатики в практической молекулярной биологии

Использование биоинформатики в практической молекулярной биологии

Presentation Transcript