320 likes | 509 Views
Построение множественных выравниваний. ФББ МГУ, 2014г. Аксянов Е.А. Постановка биологической задачи Постановка математической задачи Почему задача не решается “ в лоб ” Понятие эвристического алгоритма Источники ошибок Построение множественного выравнивания снизу Современные программы
E N D
Построение множественныхвыравниваний ФББ МГУ, 2014г.Аксянов Е.А.
Постановка биологической задачи • Постановка математической задачи • Почему задача не решается “в лоб” • Понятие эвристического алгоритма • Источники ошибок • Построение множественного выравнивания снизу • Современные программы • Pfam, CDD
Биологическая задача • Дано: N последовательностей • Найти: правильное множественное выравнивание, отражающее гомологию остатков то есть участки, где гомологии между остатками нет кластеры, где есть гомология между остатками
Биологическая задача то есть нам надо • Расставить в последовательностях гэпы • Отметить участки гомологии участки, где гомологии между остатками нет кластеры, где есть гомология между остатками
Разумеется,никакая программа окончательного ответао гомологии остатков не дастТо есть никакая программа не может построить множественное выравнивание
Постановка биологической задачи • Постановка математической задачи • Почему задача не решается “в лоб” • Понятие эвристического алгоритма • Источники ошибок • Построение множественного выравнивания снизу • Современные программы • Pfam, CDD
Математическая задача • Дано: N последовательностей • Найти: множественное “выравнивание”, то есть расставить гэпы • Как их правильно расставить?
Математическая задача • Можно придумать очень много разных “выравниваний” • Надо выбрать наилучшее • То есть, нужна некая мера качества конкретного “выравнивания” (score) • Надо выбрать выравнивание с наибольшим весом
Математическая задача • Задание: придумать вес для множественного выравнивания • Например: сумма весов всех парных выравниваний, которые можно получить из множественного
Математическая задача • Задание: придумать вес для множественного выравнивания • Например: сумма весов всех парных выравниваний, которые можно получить из множественного Возможные выравнивания Score S12 S13 S16
Математическая задача • Задание: придумать вес для множественного выравнивания • Например: сумма весов всех парных выравниваний, которые можно получить из множественного Score = S12 + S13 + … + S1N + S23 + S24 + … + SN-1N Score =
Математическая задача • Дано: N последовательностей • Найти: множественное “выравнивание”с максимальным весом Из опыта известно, что кластеры в таком выравнивании примерно совпадают с участками гомологии Score =
Постановка биологической задачи • Постановка математической задачи • Почему задача не решается “в лоб” • Понятие эвристического алгоритма • Источники ошибок • Построение множественного выравнивания снизу • Современные программы • Pfam, CDD
Эвристические алгоритмы • Наивный алгоритм: перебрать все возможные “выравнивания”, конечно, так не получится – их слишком много • Не получится даже применить алгоритм, аналогичный алгоритмам парного выравнивания для множественного выравнивания возможных вариантов сильно больше, чем для парного • Применяют, т.н. эвристические алгоритмы
Эвристические алгоритмы • Эвристический алгоритм – такой алгоритм, который не гарантирует получение точного решения математической задачи, зато работает достаточно быстро • Их применяют, т.к. из опыта известно, что конкретный алгоритм дает неплохой результатПримеры: PDBeFold, BLAST, Muscle
Ошибки при построении множественного выравнивания возникают так как1. Математическая задача не эквивалентна биологической2. Математическая задача решается не точно, а приблизительно
Постановка биологической задачи • Постановка математической задачи • Почему задача не решается “в лоб” • Понятие эвристического алгоритма • Источники ошибок • Построение множественного выравнивания снизу • Современные программы • Pfam, CDD
Построение множественного выравнивания • Идея: соберем выравнивание из его частей Построим парное выравнивание последовательностей 1 и 2, например ANK-KG AQKTKA Построим парное выравнивание последовательностей 3и 4, например AQRKA AQRKA
Построение множественного выравнивания И соберем их вместе ANK-KG AQKTKA AQRKA AQRKA A A AQ AQ AQR AQR AQR-K AQR-K AQR-KA AQR-KA Требуетсяуметь выравнивать два выравнивания. Это вы попробуете сделать на практикуме
Построение множественного выравнивания ANK-KG AQKTKA Выравнивание выравниваний – это способ расстановки гэпов (гэп всегда добавляется во все последовательности одного из исходных выравниваний). Два выравнивания можно выровнять многими способами, нам надо выбрать наилучший ANK-KG AQKTKA A-NK-KG A-QKTKA AQRKA- AQRKA- AQR-KA AQR-KA AQR--KA AQR--KA
Построение множественного выравнивания ANK-KG AQKTKA Задание: придумать меру сходства между колонками в выравнивании. Например: Среднее значение в матрице BLOSUM62 для всех пар аминокислот в данной колонке (из разных исходных выравниваний) ANK-KG AQKTKA A-NK-KG A-QKTKA AQRKA- AQRKA- AQR-KA AQR-KA AQR--KA AQR--KA
Построение множественного выравнивания ANK-KG AQKTKA Выравнивание можно рассматривать как “последовательность колонок”. Тогда все что нам нужно для выравнивания выравниваний – уметь оценить сходство между колонками. Далее можно применить те же методы, что и для построения парных выравниваний. ANK-KG AQKTKA A-NK-KG A-QKTKA AQRKA- AQRKA- AQR-KA AQR-KA AQR--KA AQR--KA
Построение множественного выравнивания Еще надо знать порядок объединения последовательностей в одно выравнивание. Например, даны последовательности: 1DDKKRAA 2 DDKRRAA 3 DDKRAA 4DDKKRRAA DDKK-RAA DDKR-RAA + = DDK--RAA DDKKRRAA 1+2 DDKKRAA DDKRRAA 3+4 DDK--RAA DDKKRRAA DD-KKRAA DD-K-RAA += DD-KRRAA DDKKRRAA 1+3 DDKKRAA DDK-RAA 2+4 DD-KRRAA DDKKRRAA
Построение множественного выравнивания • Этап 1: Построение guide tree. Например, • построить все парные выравнивания,оценить сходство всех пар последовательностей • объединять в дереве сначала близкие последовательности, потом все более и более далекие
Построение множественного выравнивания • Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания Сначала строим парное выравнивание этих последовательностей Затем добавляем эту Потом парное выравнивание этих И т.д.
Построение множественного выравнивания • Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравниванияпоследовательности остаются выровненными также, как в парных выравниваниях, что не всегда корректно. Вообще говоря, такой алгоритм вовсе не гарантирует решения математической задачи – отыскания выравнивания с максимальным весом. Для улучшения выравнивания применяют оптимизацию.
Построение множественного выравнивания • Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравниванияпоследовательности остаются выровненными также, как в парных выравниваниях, что не всегда корректно • Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностей
Построение множественного выравнивания • Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностей ! DD-KKRAA DD-K-RAA DD-KRRAA DDKKRRAA DD-KKRAA DDKKRRAA DD-K-RAA DD-KRRAA DD-KKRAA DDKKRRAA DD-K-RAA DD-KRRAA DD-KKRAA DD-KRRAA DDKKRRAA DD-K-RAA DD-KKRAA DD-KRRAA DDKKRRAA DD--KRAA DD-KKRAA DD--KRAA DD-KRRAA DDKKRRAA
Построение множественного выравнивания • Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностейКонечно, оптимизация тоже не гарантирует решения математической задачи. Но из опыта известно, что результат получается лучше, чем без нее.
Постановка биологической задачи • Постановка математической задачи • Почему задача не решается “в лоб” • Понятие эвристического алгоритма • Источники ошибок • Построение множественного выравнивания снизу • Современные программы • Pfam, CDD
Современные программы • ClustalW – устаревшая, не использует оптимизацию • ClustalO • Muscle • Mafft • T-coffee • отличаются деталями реализации,все работают прилично
Постановка биологической задачи • Постановка математической задачи • Почему задача не решается “в лоб” • Понятие эвристического алгоритма • Источники ошибок • Построение множественного выравнивания снизу • Современные программы • Pfam, CDD