320 likes | 497 Views
Обзор математических задач сравнительной геномики. Адигеев М.Г. Ростов-на-Дону, 2010. План доклада. Основные понятия: гены, хромосомы, геном. Выравнивание хромосом Другие метрики Медиана Филогенетический анализ. Основные понятия. Геном = совокупность хромосом .
E N D
Обзор математических задач сравнительной геномики Адигеев М.Г. Ростов-на-Дону, 2010
План доклада • Основные понятия: гены, хромосомы, геном. • Выравнивание хромосом • Другие метрики • Медиана • Филогенетический анализ
Основные понятия • Геном = совокупность хромосом. • Каждая хромосома = последовательность нуклеотидов. Хромосома может быть линейной (linear) или кольцевой (circular). • Отдельные участки нуклеотидной последовательности образуют гены. • В математических моделях хромосомы представляются в виде цепочек либо нуклеотидов, либо сразу генов — в зависимости от стоящей задачи.
Выравнивание последовательностей • Рассматриваются преобразования, действующие на отдельные нуклеотиды и участки хромосомы • Надо: сопоставить последовательности друг с другом таким образом, чтобы были по максимуму сопоставлены одинаковые участки
Выравнивание последовательностей
Алгоритмы выравнивания • Точечная матрица (dot matrix)
Алгоритмы выравнивания • Алгоритм Нидлмана-Вунша (глобальное выравнивание) • Алгоритм Смита-Уотермана (локальное выравнивание) Матрица замещений: + штраф за разрыв
Другие метрики Хромосома – последовательность генов. Можно представить перестановкой: Или в виде графа: Но есть несколько важных «но»…
Но № 1 У хромосомы нет различия между началом и концом.
Но № 2 Бывают циклические (закольцованные) хромосомы
Но № 3 Надо учитывать ориентацию каждого гена в последовательности Поэтому рассматривают перестановки элементов со знаками
Breakpoint distance Разрыв (точка разрыва, breakpoint) - ситуация, когда в одной из хромосом гены g и h расположены рядом (смежны, adjacent), а другая хромосома не содержит ни gh, ни –h–g. «Разрывная» метрика = количество таких разрывов.
Transposition distance Транспозиция —перенос фрагмента хромосомы в том же порядке в другое место хромосомы. Транпозиционная метрика = (минимальное) количество транспозиций, преобразующих один геном в другой.
Медиана геномов • A и B – два генома, для которых мы хотим найти общего предполагаемого предка • Принцип экономии (parsimony principle) • Выберем метрику. Пусть d(X,Y) – расстояние между геномами X и Y • d(A, X) + d(B,X) min • Вводим «внешний» геном (outgroup) C
Медиана геномов d(A, X) + d(B,X)+ d(C,X) min
Алгоритмы нахождения медианы • Структура алгоритма и его сложность зависит от используемой метрики и вида генома: • Одна или несколько хромосом • Вид хромосом: линейные, кольцевые, смешанные • Для большинства вариантов задача является NP-трудной
Алгоритмы нахождения медианы Алгоритмы основаны на сведении к другим задачам: • Задача коммивояжёра При решении с помощью ДП: O(n22n) • Задача целочисленного программирования Сложность: O(2n) • Задача о максимальном паросочетании. Сложность: O(n3)
Пример • Метрика: разрывная (breakpoint distance) • Тип генома: мультихромосомный • Тип хромосомы: смешанная • Пусть Г — множество всех генов из заданных геномов.
Пример • Построим граф G, у которого вершины гены и их инверсии: g, –g. • Все вершины соединены рёбрами, и вес ребра (g, h) равен 3–u(g, h), где u(g, h) показывает, в скольких геномах (A, B, C) гены –g и h смежны. • Для каждого гена g вводим ребро (g, –g) с весом Z.
Пример • Решаем задачу коммивояжёра • Получаем решение вида g1, -g1, g2, -g2,…,gn,-gn. • В этом случае медиана задаётся последовательностью g1,g2,…gn.
Пример Исключение: • Разрывная метрика • Мультихромосомный геном • Смешанные или чисто линеные хромосомы Существует полиномиальный алгоритм (сведение к задаче о максимальном паросочетании)
Филогенетическое дерево • Обобщение задачи о медиане: ищем не одного предка, а множество предполагаемых предков (видов). • Строим дерево родственных связей – филогенетическое дерево
Филогенетическое дерево Математическая формулировка: • Даны геномы G1, G2,…,Gn. • Построить дерево: • G1, G2,…,Gn – листья • Внутренние вершины – надо найти • Минимизировать суммарный вес дерева • Можно ограничиться вариантом: у всех внутренних вершин степень = 3
Филогенетическое дерево Два варианта: • Малая филогенетическая задача: Дерево известно Надо найти геномы для внутренних вершин • Большая филогенетическая задача: Дерево тоже не известно Сводится к задаче о дереве Штейнера
Способы решения • Перебор всех вариантов и выбор наилучшего Факт: в уже заполненном филогенетическом дереве геном, которым помечена внутренняя вершина, является медианой относительно соседних вершин Поэтому порядок решения МФЗ такой: • Инициализируем внутренние вершины. • Решаем задачи о медианах от листьев к «корню». • Если геномы изменились – повторяем п.2.
Способы решения • Сразу строить решение (дерево и геномы) Пока есть только эвристические алгоритмы… Например: построить граф разрывов (breakpoint graph) и с помощью набора преобразований построить для него дерево, близкое к оптимальному.
Основные источники • Fertin G, Labarre A, Rusu I, Tannier E, Vialette S: Combinatorics of Genome Rearrangements. MIT Press; 2009. • Mount D.W. Bioinformatics. Sequence and genome analysis. Spring Harbor Press, May 2002. • Blanchette M., Bourque G., Sankoff D. Breakpoint Phylogenies. [10.1.1.84.6956.pdf] • Tannier E., Zheng C., Sankoff D. Multichromosomal median and halving problems under different genomic distances. [1471-2105-10-120.pdf] • Sankoff D., El-Mabrouk N. Genome Rearrangement. [jiangbook.pdf] • Niklas Eriksen Combinatorics of Genome Rearrangements and Phylogeny. [lic.pdf] • Jason D. Bakos, Panormitis E. Elenis, A Special-Purpose Architecture for Solving the Breakpoint Median Problem. IEEE Trans. On Very Large Scale Integration (VLSI) SYSTEMS, Vol. 16, No. 12, December 2008.