480 likes | 722 Views
ОНТОЛОГИИ В БИОИНФОРМАТИКЕ. Подколодный Н.Л. ИВМиМГ СО РАН ИЦиГ СО РАН. Что такое БИОИНФОРМАТИКА ?.
E N D
ОНТОЛОГИИ В БИОИНФОРМАТИКЕ ПодколодныйН.Л. ИВМиМГ СО РАН ИЦиГ СО РАН
Что такое БИОИНФОРМАТИКА? Биоинформатика и вычислительная биология использует методы прикладной математики, статистики, информатики, computer science, искусственного интеллекта, химии и биохимии для решения биологических проблем
Роль биоинформатики в постгеномную эру Биоинформатика 90-х Первичные базы данных, содержащие данные по геномике и протеомике. Понимание функций и полезности отдельных генов и белков Биоинформатика сейчас Биоинформатика в будущем Биоинформатика сейчас Понимание функций и полезности на уровне молекул, клетки и организма Вторичные базы данных (знаний), аккумулирующие биологические знания. Биоинформатика в будущем Понимание базовых принципов высшей сложности биосистем Компьютерное представление клетки и организма.
MassSpectrometry Genetics Microarray Two-Hybrid Высокопроизводительные экспериментальные установкиМного данных, много форматов Экспрессия генов, взаимодействия, функция, модификация белков … Научные публикации Извлечение знаний PubMed Интеграцияданных Базы данных
Что надо пользователю? • Пользователь хочет • найти, идентифицировать, отобрать, получить и использовать данные (часто из разных источников) • Собственник / администратор • Описать, обеспечить доступк данным, интегрировать данные • Управлять доступом • администрировать • Полезные свойства службы метаданных
Фундаментальные проблемы в интеграции знаний • Гетерогенные программные системы • hardware platforms • Операционные системы • Сетевые протоколы • Языки программирования & форматы данных • Гетерогенная структура и семантика данных • Конфликт имен • Конфликт измерений • Конфликтпредставления • Конфликтвычислений • Конфликтуровней описания
TAMBIS BioPAX EcoCyc Онтологии в биоинформатике KEGG Дескриптивная логика Решетка понятийи отношений Тезаурусы: BT/NT, Parent/Child, неформальное is-A Формальное is-a фреймы (слоты) Disjointness, Inverse, Part_of DB Schema CYC Catalog RDF(S) Ontylog Термины/ глоссарий OWL IEEE SUO Value Restriction Formal instances Общие логические ограничения MeSH, Gene Ontology, UMLS Meta Snomed фреймы Простыетаксономии Развитые онтологии Ontology Dimensions based on McGuinness and Finin
Кто цитирует GO? 450 1063 публикаций из 284 журналов http://www.geneontology.org/cgi-bin/biblio.cgi
EcoCyc онтология • Возможности: • EcoCyc: Encyclopedia of Escherichia coli K12 – гены и метаболизм • Биологи могут отображать структуру хромосом и генов у E.coli • описание биохимических реакций • описание метаболических путей и генетической регуляции Особенности реализации онтологии: • Использование фреймов • Обеспечение точных определений при описании понятий и отношений между ними • Статическое описание – иерархия задается модельером, а не выводится системой. Развитие: BioCyc, MetaCyc, HumanCyc и т.д.
EcoCyc онтология Иерархия наиболее важных EcoCyc классови их взаимоотношений is_a is_a is_a is_a is_a
Foundational Model of Anatomy ontology • Включает: • 75,000 анатомических классов • 130000 уникальных терминов • более 205,000 фреймов и 174 уникальных слотов, которые используется для представления различных типов отношений, атрибутов и атрибутных отношений. • Сеть отношений FMA содержит: • более 2.5 миллиона экземпляров отношений. • cвыше 1,000,000 экземпляров классов • около 450,000 связей между классами.
BioPAX= Biological Pathway Exchange Language Результатом онтологического анализа предметной области является: (1) словарь терминов, их точных определений и взаимосвязей между ними; (2) описание правил и ограничений, согласно которым на базе введенной терминологии формируются достоверные утверждения, описывающие состояние системы; (3) модель, которая на основе существующих утверждений позволяет сделать соответствующие выводы, позволяющие вносить изменения в систему для повышения эффективности её функционирования.
Subclass (is_a) Contains (has_a) BioPAX Ontology: Top Level • Pathway • Множествоили серия взаимодействий, часто формирующих сеть, которую биологи считают полезной сгруппировать вместе по организационным, историческим, биофизическим или другим причинам. • Например: Glycolysis, MAPK, Apoptosis • Interaction • Взаимодействие между двумя или множеством сущностей. • Например: protein-protein interaction, biochemical reaction, enzyme catalysis • Physical Entity • Сущность с физической структурой. • Например: Small molecules, Proteins, DNA, RNA
BioPAX Ontology: Physical Entities PhysicalEntity is_a is_a is_a is_a is_a Protein Small Molecule Complex RNA DNA
BioPAX Ontology: Interactions Interaction is_a Взаимодействие между физическими сущностями Physical Interaction is_a is_a Control Conversion Регуляцияили модификация Превращение is_a ComplexAssembly is_a is_a is_a is_a Catalysis Modulation BiochemicalReaction Transport is_a is_a TransportWithBiochemicalReaction
utilityClass онтологии BioPAX CML, SMILE, InChI формат Дополнительные характеристики в контексте взаимодействий
Примеры проектов по развитию онтологий, осуществляющихся в ИЦиГ СО РАН
Пример разработки онтологии: генетика развития растений В настоящее время основная масса данных по генетике растений представлена только в виде научных публикаций.Формализация этих данных, накопление в специализированных базах данных и их последующий анализ является важнейшей задачей биоинформатики. Уровень экспрессии Молекулярная функция Клеточная функция Влияние на ткань Влияние на орган Влияние на организм Denis Ponomaryov, Nadezhda Omelianchuk, Viktoria Mironova, EvgenyZalevsky, Nikolay Podkolodnyy, Nikolay Kolchanov From papers to structured knowledge.The AGNS database and its applications // Lecture Notes in Artificial Intelligence. 2008
AGNS- Arabidopsis GeneNet Supplementary DataBase http://wwwmgs.bionet.nsc.ru/agns База данных по экспрессии геновв норме и при мутациях (Expression DataBase) База данных фенотипических аномалий (Phenotype DataBase) База данных публикаций(Reference DataBase) Морфология Стадии развития • Главными особенностями AGNS являются: • слабоструктурированные данные. • многообразие и неоднозначность морфологических понятий. • сложные взаимосвязи морфологических понятий на разных стадиях развития.
Развитие Stages < P1 Stages >= P1 Shoot Apex ShootApex SAM Leaf Primordium Leaf Primordium SAM Проблемы использования таксономии для описания морфогенеза Использование двух несвязанных таксономий с основным отношением «part_of» при дальнейшем анализе данных приводит к неправильным логическим построениям, противоречащим биологии морфогенеза. Например, к утверждению, что растение в разные моменты развития имеет один и тот же набор органов. Для системных исследований процессов развития необходимо построение терминологического описания морфогенеза, как целостной предметной области, необходимо учесть «динамическую природу» отношения «part_of», так как один анатомический элемент может быть частью другого на одной стадии, но не быть таковым на следующей стадии.
(1) (2) (3) (4) (5.1) (5.2) Онтология морфогенеза При создании онтологии использовались следующие предикаты: Anatomy_Element1 Development_Stage1 Has_Development_Stage2 (Anatomy_Element x Development_Stage) Before2 (Development_Stage x Development_Stage) Occurs_In2 (Development_Stage x Development_Stage) + axioms: Denis Ponomaryov, Nadezhda Omelianchuk, Viktoria Mironova, EvgenyZalevsky, Nikolay Podkolodnyy, Nikolay Kolchanov From papers to structured knowledge.The AGNS database and its applications // Lecture Notes in Artificial Intelligence. 2008
Онтология морфогенеза как инструмент для формулирования сложных запросов к базе данных • Примеры запросов реализованных с использованием онтологии морфогенеза: • S - стадия развития; найти все стадии раньше/позже S • A - анатомический элемент, S - его стадия развития; найти элементы, принадлежащие A на стадии S • Найти элементы, содержащие A на стадии S • Найти анатомические элементы, из которых развивается А • Найти анатомические элементы, которые развиваются из А • А, B - анатомические элементы; найти стадии, которые претерпевает A, будучи частью B • Является ли A частью B на некоторой стадии развития B? (по-другому: является ли A частью B когда-либо?)
Мутации как причина нарушения развития Типы аномалий в развитии: Остановка в развитии группы клеток (клетки): - терминация развития растения; - пропуск стадии в развитии растения Ускорение развития группы клеток (клетки): - Орган развивается по другому пути (из листа превратился в цветок). - Преждевременное развитие органов на более ранних стадиях Аномалии листа растения: • Centric • Dentate • Filament • Lobed • Misshapen • Narrow • Radialized • Rounder • Stunted • Variable
Различные типы отношений между аномалиями • <быть одинаковым с> • <быть альтернативным к> • <быть следствием> • <исключаться аномалией> • <быть составной частью аномалии> • <быть противоположной к> Нами сформулировано 21 правило для автоматического установления отношений между двумя заданными аномалиям.
Формирование гипотез на основе данных AGNS Сопоставление данных: • о нормальном развитии, • о фенотипах мутантов, • о времени и месте экспрессии генов позволяет выявить: • стадию пре-детерминации фенотипической аномалии; • анатомический элемент, где эта пре-детерминация происходит; • определить роль гена в формировании признака на стадии его пре-детерминации.
ANDS: Associative Network Discovery System • Основные возможности: • Автоматическое извлечение знаний о молекулярно-генетических ассоциациях и взаимодействиях из текстов научных статей и баз данных. • Автоматическая реконструкция семантических сетей молекулярно-генетических ассоциаций и взаимодействий в клетке. ANDVisio: приложение для построения семантических ассоциативных сетей по запросу пользователя ANDCell: База знаний, содержащая факты о молекулярно-генетических ассоциаций и взаимодействий в клетке Типы отношений Объекты Direct interaction Catalytic reaction Cleavage Treatment Co-expression Expression regulation Function/activity regulation Degradation/stability regulation Transport/release regulation Proteins Genes Metabolites Pathways Cell components MicroRNAs Cells Organisms Diseases Aman E.E., Demenkov P.S., Pintus S.S., Nemiatov A.I., Apasieva N.V., Dubovenko E.A.,Ignatieva E.V., Podkolodny N.L., Ivanisenko V.A.DEVELOPMENT OF A COMPUTER SYSTEM FOR THE AUTOMATED RECONSTRUCTIONOF MOLECULAR-GENETIC INTERACTION NETWORKS // PROCEEDINGSOF THE FIFTHINTERNATIONAL CONFERENCEON BIOINFORMATICSOF GENOME REGULATIONAND STRUCTURE. Vol 3. pp. 15-18.
Catalytic reaction Direct interaction Treatment Cleavage Co-expression • Transport/release Diseases ANDS: Онтология взаимоотношений между объектами Conversion Upregulation Regulation Downregulation Degradation/stability Function/activity Expression Pathways Association
ANDS: Система извлечения и интеграции знаний о молекулярных взаимодействиях в клетке из фактографических и текстовых баз данных Aman E.E., Demenkov P.S., Pintus S.S., Nemiatov A.I., Apasieva N.V., Dubovenko E.A.,Ignatieva E.V., Podkolodny N.L., Ivanisenko V.A.DEVELOPMENT OF A COMPUTER SYSTEM FOR THE AUTOMATED RECONSTRUCTIONOF MOLECULAR-GENETIC INTERACTION NETWORKS // PROCEEDINGSOF THE FIFTHINTERNATIONAL CONFERENCEON BIOINFORMATICSOF GENOME REGULATIONAND STRUCTURE. Vol 3. pp. 15-18.
the Gene Ontology ANDS:Словари названий молекулярно-генетических объектов Protein names 370097 Gene names 2474201 Disease names 46109 Metabolite names 79914 Organism names 428439 MicroRNA names 4515 90 000 (42864 – GO; 47136 – PubMed) Pathway names Cell component names 5249 Cell names 396841-PubMed
ANDS:Статистика по типам взаимодействий activity downregulation 44314 activity upregulation 40564 expression downregulation 33680 miRNA regulation23576 conversion23519 activity regulation16982 degradation downregulation 8455 degradation upregulation 8265 coexpression6617 cleavage2170 degradation regulation 1026 catalyze modification 430 association 3423732 involvement 728947 interaction 242580 expression regulation 155835 pathway regulation 104983 transport regulation 64801 pathway upregulation 64701 pathway downregulation 64289 treatment 51162 catalyze 49164 expression upregulation 46578 Total5206370
ANDS:Text-mining module: relation extraction from text PMID: 11834451 We have reported previously that insulin inhibits the stimulatory effect of high glucose levels on angiotensinogen (ANG) gene expression in ratimmortalized renal proximal tubular cells (IRPTCs) via the mitogen-activated protein kinase (p44/42 MAPK) signal transduction pathway. Interaction participants: [Glucose]+[mitogen-activated protein kinase signal transduction pathway]->Angiotensinogen Interaction type: expression upregulation Interaction attribute: cell type: immortalized renal proximal tubular cells organism: rat glucose ANG mitogen-activated protein kinase (p44/42 MAPK) signal transduction pathway Red – object names Green – organizm name Blue – pathway name Orange – cell name Magenta – interaction types keywords
ANDS:Примеры типов отношений между макромолекулами в ассоциативной семантической сети • 1. физические взаимодействия. • 2. химические взаимодействия или реакции. • Превращения • каталитические реакции • расщепление • 3. регуляторные взаимодействия. • регуляция экспрессии генов • регуляция активности или функции белка, гена, клеточнойкомпоненты или молекулярно-генетического процесса. • регуляция транспорта белков или низкомолекулярных веществ • регуляция стабильности или деградации молекулярных объектов. • регуляция молекулярно-биологических процессов • 4. коэкспрессия, то есть одновременная экспрессия нескольких генов, которая была вызвана общими регуляторными механизмами, активизирующими экспрессию генов при меняющихся условиях в клетке.
Система реконструкции механизмоврегуляции транскрипции • Задачи: • создание онтологии предметной области (сущности, их взаимоотношения, процессы, их стадии, объекты, их роли в процессах). • накопление информации об известных механизмах регуляции транскрипции. • выявление групп коэкспрессирующихся генов (со сходной картиной регуляции транскрипции в клетках или тканях на определенной стадии развития). • обнаружение закономерностей организации транскрипционных регуляторных районов у групп коэкспрессирующихся генов. • реконструкция гипотетических механизмов регуляции транскрипции с учетом: • данных о ролях и структурах регуляторных белков, присутствующих в заданных клетках или тканях на определенной стадии развития. • закономерностях строения регуляторных районов коэкспрессирующихся генов. N.L. Podkolodnyy, S.S.Nechkin,E.V. Ignatieva, E.A. Ananko, O.A. Podkolodnaya БАЗА ДАННЫХ ДЛЯ ИССЛЕДОВАНИЯ ОСОБЕННОСТЕЙ ОРГАНИЗАЦИИ ТРАНСКРИПЦИОННЫХ РЕГУЛЯТОРНЫХ РАЙОНОВ КОЭКСПРЕССИРУЮЩИХСЯ ГРУПП ГЕНОВ // // PROCEEDINGSOF THE SIXTHINTERNATIONAL CONFERENCEON BIOINFORMATICSOF GENOME REGULATIONAND STRUCTURE. 2008
Интеграция гетерогенных источников данных Система реконструкции механизмов регуляции транскрипции. 4 июля 2008г. Гены Структурно-функциональная организация районов регуляции транскрипции EntrezGene Полногеномныепоследовательности TRRD Entrez EntrezGenome Chromosomes Transcription factors Sourcesof short DNA sequences TranscriptionStart Sites Geneontology Genes GO terms Выборки промоторов Уровни экспрессии CGAP Уровень экспрессии UniGene EMBL/GenBank Tissues DNA sequences
Анализ структуры промоторов коэкспрессирующихся генов
Пример:Регуляция транскрипции гена интерферона человека.Пошаговая сборка белковых комплексов, включающих хроматин-модифицирующие и базальные транскрипционные факторы на промоторном районе Стадия 1: сборка энхансосомы • Участники: • Белки (транскрипционные факторы): ATF2, NF-KB, IRF1, HMGI(Y) • Участок ДНК (энхансер), свободный от нуклеосомной укладки • Результат: • образуется ДНК-белковый комплекс, способный притягивать мультибелковый комплекс GCN5 Нуклеосома 1 GCN5 Complex ATF2 NF-KB HMGI(Y) Энхансосома IRF1 Нуклеосома 2
Пример:Регуляция транскрипции гена интерферона человека. Стадия 2: Ацетилирование гистонов с участием комплекса GCN5 • Участники: • Гистон-ацетилазный комплекс: GCN5 • N - концевые участки гистоновых белков • Результат: • ДНК-белковый комплекс приобретает конформацию, оптимальную для привлечения белка-коактиватора CBP Нуклеосома 1 CBP Ac GCN5 Complex ATF2 NF-KB Ac HMGI(Y) Энхансосома IRF1 Нуклеосома 2
SWI/SNF Пример:Регуляция транскрипции гена интерферона человека. Стадия 3:Привлечение комплексаCBP/ Pol II • Участники: • Комплекс: ДНК / энхансосома • Белок-коактиватор: CBP • Белковая машина: холоэнзим, включающая белок Pol II • Результат: • Создается возможность для привлечения SWI/SNF комплекса Нуклеосома 1 Pol II Holoenzyme CBP ATF2 NF-KB HMGI(Y) Энхансосома IRF1 Нуклеосома 2
SWI/SNF SWI/SNF Пример:Регуляция транскрипции гена интерферона человека. Стадия 4:Привлечение комплексаSWI/SNF • Участники: • Хроматин-ремоделирующая белковая машина SWI/SNF. • Комплекс ДНК/энхансосома/ CBP • Результат: • Создается возможность для функционирования белковой машины SWI/SNF Нуклеосома 1 Pol II Holoenzyme CBP ATF2 NF-KB HMGI(Y) Энхансосома IRF1 Нуклеосома 2
SWI/SNF SWI/SNF Пример:Регуляция транскрипции гена интерферона человека. Стадия 5:Ремоделирование хроматина (нуклеосомной укладки) с участием хроматин-ремоделирующей белковой машиныSWI/SNF Участники: Хроматин-ремоделирующая белковая машина SWI/SNF. Нуклеосомы Результат: Нуклеосомы разрыхляются, TATA бокс становится доступным для взаимодействия с TFIID. Ремоделирование Нуклеосома 1 Pol II Holoenzyme CBP ATF2 NF-KB HMGI(Y) Ремоделирование IRF1 Энхансосома ТАТА Нуклеосома 2
Пример:Регуляция транскрипции гена интерферона человека. Стадия 6:Привлечение белка TFIID • Участники: • Промотор гена, включающий ТАТА бокс • Базальный транскрипционный фактор TFIID. • Результат: • Становится возможным формирование преинициационного комплекса Нуклеосома 1 Pol II Holoenzyme CBP ATF2 NF-KB HMGI(Y) IRF1 Энхансосома TFIID ТАТА Нуклеосома 2
Пример:Регуляция транскрипции гена интерферона человека. Стадия 7:Формирование преинициационного комплекса • Участники: • Комплекс ДНК/белок: ТАТА бокс/ TFIID • Белковая машина: холоэнзим • Результат: • Становится возможной инициация транскрипции Нуклеосома 1 Pol II Holoenzyme CBP ATF2 NF-KB HMGI(Y) IRF1 Энхансосома TFIID ТАТА Нуклеосома 2
Пример:Регуляция транскрипции гена интерферона человека. Стадия 8:Инициация транскрипции • Участники: • РНК полимераза Pol II • Матричная цепь ДНК • Результат: • Синтезируются первые 2-9 нуклеотидов РНК Holoenzyme Pol II TFIID ТАТА РНК