190 likes | 479 Views
Обработка данных секвенирования следующего поколения в один клик. Афанасьев Андрей, Генеральный директор iBinom. Проблемы текущих решений. Сложная установка Сложная настройка Медленная работа Плохая воспроизводимость результатов Плохая визуализация результатов. Задача.
E N D
Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей,Генеральный директор iBinom
Проблемы текущих решений • Сложная установка • Сложная настройка • Медленная работа • Плохая воспроизводимость результатов • Плохая визуализация результатов
Задача Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей: • Простой интерфейс • Минимум настроек • Высокая скорость работы и воспроизводимость результатов • Высокая точность
Технические сложности • Алгоритмическая сложностьи ресурсоемкость (до 1000 CPU*h на анализ) • Большой объем входных данных (1-500 Гб) • Разные форматы данных FastQ(длины ридов, качество в phred33/phred64) • Обеспечение безопасности передачи и хранения данных
Подход • Фильтрация ридов по качеству • Картирование • Фильтрация по таргетным регионам • Поиск SNP и коротких indel • Аннотация • Сортировка по патогенностии формирование отчета
Реализация • Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость) • Хранение данных в S3 • Картирование BWA-MEM • Референс hg19 GRCh37.p13 assembly, ver. 73.37 • КоллингSamTools • Аннотация SnpEff • Собственная оценка патогенности –ibinomscore
Выравнивание(симулированные данные)
iBinom Score • Машинное обучение с помощью алгоритма градиентного бустинга • Обучающая выборка: • Патогенные: записи из dbsnp c clinvarclinicalsignificance = pathogenic • Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях
iBinom Score Точность: 93.44% Полнота: 90.96% F-measure: 92.18% Обучение по базам и скорам: 1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.
Использование iBinom 1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace 2. Встроенный тримминг адаптеров 3. Можно объединять несколько файлов в один образец 4. Можно скачать vcf-файл (в формате v.4.1) 5. Для передачи используется шифрованное соединение https
Планы • Система подбора болезней(по симптомам, по списку генов, по списку болезней) • Ветвление пайплайна(например, выравнивание TMAP для IonTorrent) 3. Переделка и упрощение интерфейса программы
Приглашаем к сотрудничеству! a@ibinom.com