1 / 70

Теория геномной сборки. Графы. Источники артефактов при сборке

Теория геномной сборки. Графы. Источники артефактов при сборке. Касьянов Артем 01.10.2014. Что такое геном ?. Полный набор ДНК , содержащийся в организме : Хромосомы Органеллы(митохондрии, хлоропласты и т.д.) Плазмиды ДНК-вирусы Бактериофаги

lucky
Download Presentation

Теория геномной сборки. Графы. Источники артефактов при сборке

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Теория геномной сборки. Графы. Источники артефактов при сборке Касьянов Артем 01.10.2014

  2. Что такое геном? • Полный набор ДНК, содержащийся в организме: • Хромосомы • Органеллы(митохондрии, хлоропласты и т.д.) • Плазмиды • ДНК-вирусы • Бактериофаги • Без потери общности можно представить в виде набора строк из четырехбуквенного алфавита(A,G,C,T).

  3. Размеры геномов • Вирусы, плазмиды • От 1 т.п.н. до 100 т.п.н. …HIV 9181 п.н. • Бактерии, археи • От 1 м.п.н. до 10 м.п.н. …E.coli 4.6 м.п.н. • Простейшие эукариоты • От 10 м.п.н. до 100 м.п.н. …Malaria 23 м.п.н. • Животные, растения • От 100 м.п.н. до 150 млрд.п.н. …Human 3.2 млрд. п.н.

  4. WGS секвенирование Несколько копийДНК молекул Фрагменты длиной 200 - 200,000 п.н. Не остается информации из какой части генома взят тот или иной фрагмент

  5. WGS секвенирование: фрагменты Секвенаторсчитываетпо 100-1000 п.н.с конца/концовфрагмента. Размеры фрагментов известныс точностью± 10-20%. CAAGCTGAT... …GTTTGGAAC Неизвестная последовательность Пары чтений

  6. Геномные чтения • Короткие поддпоследовательности генома • Неизвестно из какого места генома они получены. • Неизвестно с какой нити они взяты • Перекрываются друг с другом • Содержат ошибки

  7. Сборка генома [http://cseweb.ucsd.edu/~ppevzner/B4B/excerpts/Compeau-Pevzner.pdf]

  8. Что такое граф • Граф G — это упорядоченная пара G := (V, E), где V — это непустое множество вершин или узлов, а E — множество пар (в случае неориентированного графа — неупорядоченных) вершин, называемых рёбрами. • Путем в графе называют конечную последовательность вершин, в которой каждая вершина (кроме последней) соединена со следующей в последовательности вершиной ребром.  [http://ru.wikipedia.org/wiki/Граф_(математика)]

  9. Алгоритмы сборки • OLC(overlap-layout-consensus)алгоритмы • Алгоритмы, основанные на de Bruijn графах • «Жадные»алгоритмы

  10. OLC алгоритмы 1)Вычисление перекрытий 2) Построение графа перекрытийи нахождение гамильтонового пути 3)Вычисление множественного выравнивания 4)Построениеконсенсуспоследовательности

  11. Гамильтонов путь Гамильтонов путь  — путь, содержащий каждую вершину графа ровно один раз. Нахождение такого пути NP-полная задача Уильям Гамильтон, 1856

  12. OLC алгоритмы • Staden, R. A new computer method for the storage and manipulation of DNA gel reading data(1982) Nucleic Acids Research 10, 4731-4751. • Построен на основе жадного подхода • Предложен термин контиг • 1984 – SEQAID • Peltola, H., Söderlund, H., and Ukkonen, E. 1984. SEQAID: A DNA sequence assembly program based on a mathematical model. Nucleic Acids Res. 12, 307-321. • Первый OLC сборщик • 1992 – CAP • Huang, X. 1992. A contig assembly program based on sensitive detection of fragment overlaps. Genomics 14, 18-25.

  13. OLC алгоритмы

  14. De Bruijnграф AGCTATCGTGACG AGCTAT GCTATC CTATCG TATCGT AGCTATC GCTATCG CTATCGT TATCGTG ATCGTG TCGTGA CGTGAC GTGACG ATCGTGA TCGTGAC CGTGACG GCTATCG AGCTATC AGCTAT CTATCGT CGTGAC GTGACG ATCGTG GCTATC CTATCG TATCGT TCGTGA TATCGTG TCGTGAC CGTGACG ATCGTGA

  15. De Bruijnграф AGCTATC GCTATCG CTATCGT TATCGTG ATCGTGA TCGTGAC CGTGACG AGCTATCGTGACG

  16. Эйлеров путь Эйлеровпуть в графе — это путь, проходящий по всем рёбрам графа и притом только по одному разу. Каждая вершина этого графа имеет чётную степень, поэтому этот граф — эйлеров. Обход рёбер в алфавитном порядке даёт эйлеров цикл. Граф Кёнигсбергских мостов.

  17. De Bruijnграф TGTACTATGTCCTA TGT GTA TAC ACT CTA ATG TGT GTC TCC CCT CTA TAT ATGT TGTC GTCC TATG TGTA GTAC TACT CTAT TCCT CCTA ACTA GTAC TACT TGTA ACTA CCTA TGTC TCCT GTCC CCT GTC TGT GTA TAC ACT ATG CTA TCC TAT CTAT ATGT TATG

  18. De Bruijnграф TGTC TGTA GTCC GTAC TCCT TACT CCTA ACTA CTAT CTAT TATG TATG ATGT ATGT TGTA TGTC GTAC GTCC TACT TCCT ACTA CCTA TGTCCTATGTACTA TGTACTATGTCCTA

  19. De Bruijn graph algorithms • Построение хэшаиdeBruijnграф • Упрощениелинейных участков • Удаление «пузырей» и «хвостиков» [Daniel R. Zerbino and Ewan Birney, Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. May 2008; 18(5): 821–829. ]

  20. De Bruijn graph Klow Kmid Khigh

  21. De Bruijn граф 1)Сильная зависимость от выбора параметра k. Не существует формальной методики позволяющей выбрать этот параметр оптимальным образом. 2)Сильная зависимость от наличияошибок в чтениях.

  22. Алгоритмы, основанные на De Bruijn графах

  23. String graph

  24. Алгоритмы, основанные на String graph методологии

  25. Более реалистичный пример графа [http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

  26. Что усложняет графы • Ошибки в чтениях • Приводят к появлению в графе ошибочных ребер и вершин. • Диплоидные и полиплоидные организмы • Приводит к появлению дополнительных путей в графе • Повторы

  27. Что такое повтор? • Участок ДНК, который встречается более одного раза в геномной последовательности. • Наиболее частые • Транспозоны • Сателлитные повторы • Дуплицированные гены(паралоги)

  28. Как повторы влияют на сборку Повторяющиеся элементы сливаются в один контиг. [http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

  29. Как повторы влияют на сборку Слияние тандемных повторов Исключение участка между повторами Перестановка [http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

  30. OLC vs DBG • DBG • Очень чувствителен к повторам и ошибкам в чтениях • Одна ошибка в чтении создает k ошибочных узлов • Ключевой параметр: размер k. • OLC • Менее чувствительны к повторам и ошибкам в чтениях • Построение графа требует больше вычислительных ресурсов • Плохо масштабируется при увеличении числа чтений • Ключевой параметр:minOverlapLen, %.

  31. Скаффолдинг

  32. Скаффолдинг • Парные чтения • известно расстояние между парными чтениями • неизвестна последовательность между парными чтениями • Большинство пар чтений будет в одном контиге • если длина большинства контигов больше длины чтений • Часть парных чтений будет в разных контигах • эти контиги возможно связаны

  33. От контигов к скаффолдам Парные чтения Контиги Скаффолд Гэпы Гэпы [http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

  34. Параметры набора данных • Длина рида • Покрытие • Качество • Тип библиотеки: SE,PE,MP.

  35. Технологии секвенирования

  36. Что такое длина вставки?

  37. Если вы подписались на длинный геном Требуйте набор библиотек с разной длиной вставки Геном мухоловки - 1.1 Gb Библиотеки: 1)~200 4)~500 7)~5100 2)~300 5)~2400 8)~18000 3)~400 6)~4100 9)~21000 [Ellegren H et al. , The genomic landscape of species divergence in Ficedula flycatchers. Nature 2012, 491.]

  38. Что такое покрытие? • Это сколько раз в среднем нуклеотид генома покрыт ридами [http://http://gcat.davidson.edu/phast/]

  39. Необходимое покрытие дляde Novo сборки

  40. Форматы файлов • FASTA формат >SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT • FASTQ формат @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

  41. De novo сборка генома • Предобработка FASTQC, prinseq, trimmomatic, kmc2,kmernator2… • Сборка Newbler, Spades, Velvet… • Оценка качества сборки QUAST, BLAST, Prinseq, Bowtie…

  42. Предобработка • Оценка качества набора чтений.(FASTQC) • Триммированиеридов.(trimmomatic…)

  43. Предобработка • Фильтрация по кмерам.(kmernator2…)

  44. Как оценить качество сборки? • Число контигов • Чем меньше тем лучше. • Размер контигов • Средняя длина, максимальная длина, медиана, N50 • Суммарная длина • Должна быть близка к ожидаемой • Число “N” • Чем меньше, тем лучше

  45. Что такое N50? N50 показывает качество сборки Скаффолды располагают по убыванию длины Суммируют длину, начиная с самого большого скаффолда. На каком скаффолде покроем половину генома? Длина этого скаффолда называется N50. [http://www.discoveryandinnovation.com/BIOL202/notes/lecture25.html]

  46. Верификация сборки • Картировать чтения на сборку. • Определить места в которых чтения картируются с большим числом замен, вставок/делеций. • Оценка покрытия областей сборки в соотвествие с GC контентом. По сборке определяется эмпирическоераспредление покрытия от GC контента и маркируются области в которых наблюдается отклонение покрытия. • -Оценка корректности картирования парных чтений по длинам вставки. По сборке определяется эмпирическое распределение длин вставок и на его основе маркируются области с некорректными значениями длин вставок, картирующихся на них пар чтений.

  47. Верификация сборки • ALE(Assembly Likelihood Evaluation)[Clark et al.,2013] • FRC(Feature Response Curve)[Vezzi et al. 2012] • Amosvalidate[Phillippy et al., 2008]

  48. Почему тяжело собирать геномы? • Биологические причины • Высокая плоидность, гетерозиготность, повторы • Трудности, свзяанные с секвенированием • Очень большие геномы, неточное секвенирование • Вычислительные трудности • Очень большие геномы, сложность структуры • Оценка качества • Очень трудно оценивать качество

  49. Что нужно для хорошей сборки Покрытие Качество Длина чтений Длина чтений или хотя бы длины вставок должны быть больше чем длина повторов Ошибки могут скрывать перекрытия Требуется высокий уровень покрытия [Current challenges in de novo plant genome sequencing and assembly Schatz MC., Witkowski, McCombie, WR(2012) Genome biology,12:243]

More Related