190 likes | 373 Views
UGENE – интегрированные инструменты биолога. Константин Оконечников, НЦиТ Унипро 20 10. Вычислительная биология. Примеры характерных задач : Поиск гомологов Поиск и анализ схожести между генетическими последовательностями, различные виды выравниваний Определение генов
E N D
UGENE –интегрированные инструменты биолога Константин Оконечников, НЦиТ Унипро 2010
Вычислительная биология Примеры характерных задач: • Поиск гомологов • Поиск и анализ схожести между генетическимипоследовательностями, различные виды выравниваний • Определение генов • Идентификация генов и аннотация их функций • Сборка контигов • Сборка цельных геномов из известных частей полученных в результате секвенирования • Анализ структуры белка • Предсказание вторичной и третичной структуры, определение функций • …и многое другое
Форматы и базы данных MSF EMBL CLUSTAL STOCKHOLM Genbank GFF NCBI FASTA FASTQ EMBL NEWICK SAM ABI NEXUS MMDB UniProt SCF ACE PDB Колоссальный объем информации! Например: Количество записей в NCBI Genbankна 2010 год – 120000 000 Количество публикаций в PubMedна 2010 год – 20 000 000
Многообразие подходов BLAST,FASTA,SSEARCH,CLUSTAL,MUSCLE,MAFFT,KALIGN,UCLUST,HMMER2, HMMER3,GARLIC,CONSED,CGVIEW,ERGO,EBBIE,MAUVE,MATTREE,COVE, PSIBLAST, GOR, PSIPRED, EXPASY, EMBOSS, PHYLIPP, SAM, CASP, BLOCKS, PRIMER3, CSBLAST, HHPRED,BIOCONDUCTOR,MUMMER, FEAST,BOWTIE,MAQ,SOAP,BIOPERL,POA, PRANK, FOLDALIGN,RMAP,SITECON,SHRIMP,BATWING,ASAP, BEAST,MEGA,MESQUITE,SEMPHY,TNT,BIOEDIT,BIOPYTHON,GALAXY, TAVERNA, GENEMARK, AMAP, MEME, PPSEARCH, ELPH, GENESCAN, ARTEMIS, CLANN, GENLUX, CRNPRED, BRAGI, DIP4FISH ANGIS,AFFYMETRIX,GENECHIP,ARLEQUIN,BIOPHP,BIORUBY,BIOEXTRACT, BIOSLAX,BISKIT,CYTOSCAPE,DAVID,DIALIGN-T, DIALIGN-TX,DNASTAR,ETBLAST FOLDX,FORMATDB,GENSCAN,GENTLE,GESS, GENMAPP,GENE,ACE, UGENE,ARGO, DESIGNER,GENEDATA,ENEPATTERN,GENEVESTIGATOR,JALIGNER,MEGAN,ARKA MODELLER,OLIGO,JPRED,STRIDE,TESS,GLIMMER,BIOECLIPSE, ENSEMBL,ASTERIAS,DPVIEW, PAUP,PSORT,PHYLOSCAN,PUPASUITE,PYMOL,RAPTOR,RASMOL, STING,SIMBIOSYS,SNAGGER,SOAPLAB,SPLITSTREE,ST EMLOC,T-COFFEE,PILER,USEARCH,DELTASTAT,DCSE,ASID,ARB,ANGLER, TREEFINDER,UCSF CHIMERA,UTOPIA,VECTOR NTI,YASS,MUSCA,JASPAR …………………….
Минусы существующих подходов • Зачастую средства и алгоритмы анализа генетических данных не согласуются между собой.Суть проблемы: необходима целостность в управлении данными, возможность построения составных методов анализа. • Популярные инструменты не всегда пригодны для систематического анализа большого количества данных Суть проблемы: сложность обработки промежуточных результатов и другие ограничения. • Многие задачи гораздо эффективнее решаются посредством использования высокопроизводительных ресурсовСуть проблемы: нужен специальный опыт в этой области.
UGENE – предлагаемое решение Цель проекта – интеграция наиболее используемых алгоритмов анализа генетических данных в единой визуальной рабочей среде, удобной для прикладного специалиста. • Свободная лицензия, русификация; • Кросс-платформенность (MS Winodws, Mac, Linux); • Модульная архитектура, более 30 расширений; • Единый, удобный пользовательский интерфейс; • Концептуальная целостность в работе данными; • Эффективное использование вычислительных ресурсов; • Поддержка составных методов анализа данных.
Краткий обзор возможностей UGENE • Автоопределение форматов данных, поддержка более 20 форматов. • Поиск паттернов и парное выравнивание (Smith Waterman) • Сборка контигов (Bowtie, UGENE Genome Aligner) • Множественное выравнивание: MUSCLE, Kalign, Clustal, Mafft • Сверхбыстрый поиск повторов • Визуализация и редактирование хроматограмм • Анализ гомологии на основе цепей Маркова (HMMER) • Построение филогенетических деревьев (Phylip) • Поиск открытых рамок считывания для всех генетических таблиц • Поддержка запросов к удаленным базам данных ( BLAST, CDD) • Сайты рестрикции, cайты связывания транскрипционных факторов
Возможности UGENE • Удобный редактор аннотаций • Мощные возможности по визуализации и редактированию последовательностей • ДНК • РНК • Аминокислотные
Возможности UGENE • Редактор множественных • выравниваний • Просмотрщик • филогенетических деревьев • Визуализатор трехмерных макромолекулярных биологических структур с возможностью экспорта
Составные методы анализа Дизайнер вычислительных схем (Workflow Designer) – комплексный инструмент автоматизации вычислительных процессов, входящий в среду UGENE. • Интуитивно понятный интерфейс пользователя; • Расширяемость – легкое добавление новых вычислительных блоков; • Каждый блок может иметь различные оптимизированные реализации для различных платформ; • Автоматическая загрузка всех доступных вычислительных ресурсов; • Интерактивность.
Эффективное использование вычислительных ресурсов • Многоядерные процессоры • Кластерыи грид-системы • Платформо-зависимые оптимизации, GPGPU • Облачные вычисления Удаленный сервис запуска задач основанный на мощностях Amazon EC2 Для пользователя запуск вычислительных задач иработа с платформой не усложняется!
Сравнение с аналогами * может быть бесплатным при определенных условиях
Текущее состояние проекта • Более 1000 активных пользователей • Проект входит в официальные версии дистрибутивов Linux: Ubuntu, Fedora, Arch • Взаимодействие с российскими и рядом зарубежных институтов в области вычислительной молекулярной биологии • Перенос задач на суперкомпьютеры
Перспективы • Анализ данных секвенирования, визуализация • Удобный язык для Дизайнера вычислительных схем • Новая разработка Query Designer • Объединенное рабочее пространство для группы исследователей • Дальнейшее развитиеудаленного сервиса UGENE
Вы и UGENE • Использование UGENE в повседневной работе • Обратная связь • Специализированные feature-request’ы • Совместная работа над большими проектами • Использование UGENE в образовательных проектах
Полезные ссылки • Сайт: http://ugene.unipro.ru • Почтовый алиас: ugene@unipro.ru • Форум: http://ugene.unipro.ru/forum • Видео-канал: http://youtube.com/uniprougene • Твиттер: http://twitter.com/uniprougene
Спасибо за внимание! Вопросы ?