1 / 32

Обзор математических задач сравнительной геномики

Обзор математических задач сравнительной геномики. Адигеев М.Г. Ростов-на-Дону, 2010. План доклада. Основные понятия: гены, хромосомы, геном. Выравнивание хромосом Другие метрики Медиана Филогенетический анализ. Основные понятия. Геном = совокупность хромосом .

dennis-holt
Download Presentation

Обзор математических задач сравнительной геномики

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Обзор математических задач сравнительной геномики Адигеев М.Г. Ростов-на-Дону, 2010

  2. План доклада • Основные понятия: гены, хромосомы, геном. • Выравнивание хромосом • Другие метрики • Медиана • Филогенетический анализ

  3. Основные понятия • Геном = совокупность хромосом. • Каждая хромосома = последовательность нуклеотидов. Хромосома может быть линейной (linear) или кольцевой (circular). • Отдельные участки нуклеотидной последовательности образуют гены. • В математических моделях хромосомы представляются в виде цепочек либо нуклеотидов, либо сразу генов — в зависимости от стоящей задачи.

  4. Выравнивание последовательностей • Рассматриваются преобразования, действующие на отдельные нуклеотиды и участки хромосомы • Надо: сопоставить последовательности друг с другом таким образом, чтобы были по максимуму сопоставлены одинаковые участки

  5. Выравнивание последовательностей

  6. Алгоритмы выравнивания • Точечная матрица (dot matrix)

  7. Алгоритмы выравнивания • Алгоритм Нидлмана-Вунша (глобальное выравнивание) • Алгоритм Смита-Уотермана (локальное выравнивание) Матрица замещений: + штраф за разрыв

  8. Другие метрики Хромосома – последовательность генов. Можно представить перестановкой: Или в виде графа: Но есть несколько важных «но»…

  9. Но № 1 У хромосомы нет различия между началом и концом.

  10. Но № 2 Бывают циклические (закольцованные) хромосомы

  11. Но № 3 Надо учитывать ориентацию каждого гена в последовательности Поэтому рассматривают перестановки элементов со знаками

  12. Breakpoint distance Разрыв (точка разрыва, breakpoint) - ситуация, когда в одной из хромосом гены g и h расположены рядом (смежны, adjacent), а другая хромосома не содержит ни gh, ни –h–g. «Разрывная» метрика = количество таких разрывов.

  13. Transposition distance Транспозиция —перенос фрагмента хромосомы в том же порядке в другое место хромосомы. Транпозиционная метрика = (минимальное) количество транспозиций, преобразующих один геном в другой.

  14. Медиана геномов • A и B – два генома, для которых мы хотим найти общего предполагаемого предка • Принцип экономии (parsimony principle) • Выберем метрику. Пусть d(X,Y) – расстояние между геномами X и Y • d(A, X) + d(B,X)  min • Вводим «внешний» геном (outgroup) C

  15. Медиана геномов d(A, X) + d(B,X)+ d(C,X)  min

  16. Алгоритмы нахождения медианы • Структура алгоритма и его сложность зависит от используемой метрики и вида генома: • Одна или несколько хромосом • Вид хромосом: линейные, кольцевые, смешанные • Для большинства вариантов задача является NP-трудной

  17. Алгоритмы нахождения медианы

  18. Алгоритмы нахождения медианы Алгоритмы основаны на сведении к другим задачам: • Задача коммивояжёра При решении с помощью ДП: O(n22n) • Задача целочисленного программирования Сложность: O(2n) • Задача о максимальном паросочетании. Сложность: O(n3)

  19. Пример • Метрика: разрывная (breakpoint distance) • Тип генома: мультихромосомный • Тип хромосомы: смешанная • Пусть Г — множество всех генов из заданных геномов.

  20. Пример • Построим граф G, у которого вершины гены и их инверсии: g, –g. • Все вершины соединены рёбрами, и вес ребра (g, h) равен 3–u(g, h), где u(g, h) показывает, в скольких геномах (A, B, C) гены –g и h смежны. • Для каждого гена g вводим ребро (g, –g) с весом Z.

  21. Задача коммивояжера

  22. Пример • Решаем задачу коммивояжёра • Получаем решение вида g1, -g1, g2, -g2,…,gn,-gn. • В этом случае медиана задаётся последовательностью g1,g2,…gn.

  23. Пример

  24. Пример Исключение: • Разрывная метрика • Мультихромосомный геном • Смешанные или чисто линеные хромосомы Существует полиномиальный алгоритм (сведение к задаче о максимальном паросочетании)

  25. Филогенетическое дерево • Обобщение задачи о медиане: ищем не одного предка, а множество предполагаемых предков (видов). • Строим дерево родственных связей – филогенетическое дерево

  26. Филогенетическое дерево Математическая формулировка: • Даны геномы G1, G2,…,Gn. • Построить дерево: • G1, G2,…,Gn – листья • Внутренние вершины – надо найти • Минимизировать суммарный вес дерева • Можно ограничиться вариантом: у всех внутренних вершин степень = 3

  27. Филогенетическое дерево

  28. Филогенетическое дерево Два варианта: • Малая филогенетическая задача: Дерево известно Надо найти геномы для внутренних вершин • Большая филогенетическая задача: Дерево тоже не известно Сводится к задаче о дереве Штейнера

  29. Способы решения • Перебор всех вариантов и выбор наилучшего Факт: в уже заполненном филогенетическом дереве геном, которым помечена внутренняя вершина, является медианой относительно соседних вершин Поэтому порядок решения МФЗ такой: • Инициализируем внутренние вершины. • Решаем задачи о медианах от листьев к «корню». • Если геномы изменились – повторяем п.2.

  30. Способы решения • Сразу строить решение (дерево и геномы) Пока есть только эвристические алгоритмы… Например: построить граф разрывов (breakpoint graph) и с помощью набора преобразований построить для него дерево, близкое к оптимальному.

  31. Способы решения

  32. Основные источники • Fertin G, Labarre A, Rusu I, Tannier E, Vialette S: Combinatorics of Genome Rearrangements. MIT Press; 2009. • Mount D.W. Bioinformatics. Sequence and genome analysis. Spring Harbor Press, May 2002. • Blanchette M., Bourque G., Sankoff D. Breakpoint Phylogenies. [10.1.1.84.6956.pdf] • Tannier E., Zheng C., Sankoff D. Multichromosomal median and halving problems under different genomic distances. [1471-2105-10-120.pdf] • Sankoff D., El-Mabrouk N. Genome Rearrangement. [jiangbook.pdf] • Niklas Eriksen Combinatorics of Genome Rearrangements and Phylogeny. [lic.pdf] • Jason D. Bakos, Panormitis E. Elenis, A Special-Purpose Architecture for Solving the Breakpoint Median Problem. IEEE Trans. On Very Large Scale Integration (VLSI) SYSTEMS, Vol. 16, No. 12, December 2008.

More Related