550 likes | 817 Views
Системная биология. М.С.Гельфанд Учебно-научный центр «Биоинформатика» Институт проблем передачи информации РАН. Международная школа «Биоинформатика, геномика, протеомика» Алма-Ата, Казахстан, апрель 2006. Полные геномы.
E N D
Системная биология М.С.Гельфанд Учебно-научный центр «Биоинформатика» Институт проблем передачи информации РАН Международная школа «Биоинформатика, геномика, протеомика» Алма-Ата, Казахстан, апрель 2006
Полные геномы • GOLD:361 полный геномВ процессе: 952 бактерий 58 архей 607 эукариот (в т.ч. EST) 46 метагеномов
46 метагеномов • “complete” • Sargasso Sea 1600 Мб • Methane-oxidizing archaea from deep sea sediments 111 Мб • Minnesota Soil 100 Мб • Acid mine drainage (AMD) 75 Мб • Woolly mammoth 28 Мб • Whale falls 25 Мб • Antarctic Marine Bacterioplankton 12 Мб • Pleistocene Cave Bears 1 Мб • DOE Hanford Site • “incomplete”, но с оценкой размераили опубликованые • Hawaii Ocean Times Series Station (HOT) 2000 Мб • Rice endophyte community 100 Мб • Poplar endophytic bacteria 37 Мб • Alaskan Soil 8 Мб • Pacific Beach Sand 3 Мб • Calyptogena magnifica symbiont 1.2 Мб • Biofilms in drinking-water networks
Метагеномы в другом смысле • Escherichia 5+32 + Shigella 6+5 • Salmonella 5+18 • Staphylococcus 17+9 (aureus 9+5) • Streptococcus 17+35 • S. pyogenes 7+7 • S. pneumoniae ~7+7 • Bacillusanthracis+cereus+thuringiensis 7+22 • Mycoplasma 12+16 • Chlamydia 4+5 + Chlamydophyla 6+2
Массовые негеномные данные • (ко)-экспрессия • Белок-ДНКовые взаимодействия • Состав и концентрации белков • Белок-белковые взаимодействия • Одинарные и двойные мутанты (жизнеспособность, фенотипы) • Всякие разные эксперименты (text mining) • Много баз данных • Мало удобных средств анализа
Задачи на ближайшее будущее • Что делать с тысячами геномов? • Что делать с метагеномами? • Как разумно интегрировать разнообразные данные?
Виды чипов (expression arrays) • кДНКовые • ПЦР-амплификация известных генов • (можно сколь угодно либерально – брать все сомнительные гены) • Надо учитывать альтернативный сплайсинг, полиаденилирование, промоторы (трудно) • В зависимости от способа приготовления меченой кДНК, можно предпочитать 3’-концы • Выстилающие (tiling) • Весь геном – по ~30 нуклеотидов со сдвигом ~10 нуклеотидов… • … за исключением повторов, микросателлитов и т.п.
Типичные задачи • классификация измерений (например, диагностика) • выбор генов, дифференциально экспрессирующихся в двух классах (диагностика, до/после) • поиск групп ко-регулируемых генов
базы данных результатов экспериментов по анализу экспрессии • ArrayExpress http://www.ebi.ac.uk/microarray/ArrayExpress/arrayxpress.html • Stanford Microarray Database http://genome-www5.stanford.edu/MicroArray/NDEV/index.shtml • GEO (Gene Expression Omnibus) http://www.ncbi.nlm.nih.gov/geo/ • Стандартизованная форма данных об эксперименте (MIAME: Minimal Iinformation About a Microarray Experiment)
Развитие цветка резухи Талядвойная кластеризация – на генах и на условиях
Plasmodium– цикл развития в эритроците [Bozdech et al., 2003]
белок-белковые взаимодействия • комплексы – масс-спектрометрия • дрожжевые двугибридные системы • GAL4 • два домена: димеризационный (связывает галактозу) и ДНК-связывающий • димер связывается с оператором • димеризационный и ДНК-связывающий домены могут быть в разных белках (связь через тестируемые белки)
ChIP-chip(chromatin immunoprecipitation) Briefly, cells are fixed with formaldehyde, harvested by sonication, and DNA fragments that are crosslinked to a protein of interest are enriched by immunoprecipitation with a specific antibody. After reversal of the crosslinking, the enriched DNA is amplified and labeled with a fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of DNA that has not been enriched by immunoprecipitation is subjected to LM-PCR in the presence of a different fluorophore, and both IP-enriched and unenriched pools of labeled DNA are hybridized to a single DNA microarray containing all yeast intergenic sequences.
Что можно делать • Частная биоинформатика • Функциональная аннотация • Метаболическая реконструкция • Анализ регуляторных систем • Системная биология • Общие свойства систем: графы, сети, … • Эволюция • Конкретных метаболических и регуляторных подсистем • Моделирование сетей
Систематический анализ генов дрожжей [Kemmeren et al. 2005] • Белок-белковые взаимодействия • Корреляция профилей экспрессии • Ко-локализация • Сходство фенотипов
KRE33 “killer toxin resistant”, no GO annotation • 20 связанных генов • 13: часть комплекса U3 snoRNP (процессинг рРНК) • 4: метаболизм мРНК
ASC1 (no annotation) • 4 гена – процессинг рРНК • 6 факторов инициации трансляции • Ydj1 и ZUO1 имеют домены, гомологичные DnaJ (шаперон, работает при тепловом и (другом) шоке), ZUO1 – шаперон, связанный с рибосомой • Предсказания: • Ydj1 – шаперон • ASC1 – “a role in stress-induced misfolding” • Эксперимент: мутанты по Ydj1 и ASC1 плохо растут при повышенной концентрации NaCl и KCl
STRING server (EMBL – Bork):- positional clustering- fusions- phyletic patterns- co-expression- high-throughput experiments - text mining (Medline abstracts)- databases
Functionally dependent genes tend to cluster on chromosomes in many different organisms
More genomes (stronger links) => highly significant clustering
Особенно в линейных путях (справа)
Распределение уровней связи(бимодальное для изоферментов, монотонное для субъединиц)
Биосинтез ароматических аминокислот • Синий: общие метаболиты • Зеленый, желтый, красный: связи
Путь синтеза ароматических кислот и его окрестности с точки зрения сравнительной геномики
Метаболизм серосодержащих аминокислот и геномные кластеры. • Традиционные пути: Слева и посередине: синтез цистеина Справа: синтез метионина Горизонтальный: one-carbonmetabolism (частично)
свойства сетей • N = количество вершин • распределение степеней вершин P(k) = вероятность того, что у случайно взятой вершины будет k ребер • средняя длина пути между вершинами L • Коэффициент кластеризации – мера связи между соседями данной вершины
случайная сеть • пуассоновское распределение P(k) = exp(-λ) λk / k! • Теорема Эрдеша-Реньи: фазовый переход – возникновение гигантской компоненты • средняя длина пути ~ log N
scale-free network • P(k) ~ k–γ • γ>3 – ничего особенного • 2<γ<3 – hubs, иерархия • γ=2 большой hub, соединенный с большой долейвершин • При γ<3 удаление случайной вершины не разрушает сеть, удаление hub’а – разрушает • средняя длина пути (при 2<γ<3) ~ log log N
Разные виды графов • Распреде-ление степеней вершин • Коэффи-циент класте-ризации L.Barabasi
Yeast protein interaction network • Data from the high-throughput two-hybrid experiment (T. Ito, et al. PNAS (2001) ) • The full set containing 4549 interactions among 3278 yeast proteins • 87% nodes in the largest component • The highest connected protein interacts with 285 others! • Figure shows only nuclear proteins Sergei Maslov’s web site
Гигантская компонента в графе белок-белковых взаимодействий в дрожжах • Красный – летальная мутация • Оранжевый – медленный рост • Желтый – неизвестно • Зеленый – нелетальная мутация
Белок-белковые взаимодействия в дрожжах: P(k) и размеры связных компонент
Transcription regulatory network in baker’s yeast • Downloaded from the YPD database: 1276 regulations among 682 proteins by 125 transcription factors (10 regulated genes per TF) • Part of a bigger genetic regulatory network of 1772 regulations among 908 proteins • Positive to negative ratio 3:1 • Broader distribution of out-degrees (up to 72) and more narrow of in-degrees (up to 21)
регуляция транскрипции (дрожжи, ChIP-chip) • A: in-degree (относительно регулируемых генов):гистограмма (в полулогарифмических координатах) количества промоторов с заданным числом регуляторов– экспоненциальное распределение (у большинства генов мало регуляторов). Пустые кружки – случайный граф • В: out-degree (относительно факторов): гистограмма количества факторов, связывающих заданное количество промоторов – scale-free
Transcription regulatory network in Homo Sapiens • Data courtesy of Ariadne Genomics obtained from the literature search: 1449 regulations among 689 proteins • Positive to negative ratio is 3:1 (again!) • Broader distribution of out-degrees (up to 95) and more narrow of in-degrees (up to 40)
Transcription regulatory network in E. coli • Data (courtesy of Uri Alon) was curated from the Regulon database: 606 interactions between 424 operons (by 116 TFs) • Positive to negative ratio is 3:2 (different from eukaryots!) • Broader distribution of out-degrees (up to 85) and more narrow of in-degrees (only up to 6 !)
зависимость физиологических и геномных свойств от топологии • дрожжи: • ~10% genes with<5links are essential • >60% genes with >15 links are essential • гены с большим числом связей • с большей вероятностью имеют ортологов в многоклеточных эукариотах • ближе к ортологам из C. elegans
Статус гена в геноме • PPI – количесто белок-белковых взаимодействий • EL – уровень экспрессии • KE – летальность нокаутов • ER – скорость эволюции • PGL – вероятность потери в геноме • NP – количество паралогов • GI – количество геномных взимодействий Е.В.Кунин
party hubs и date hubs • Бимодальное распределение корреляций уровня экспрессии • Красный: hubs • Голубой: non-hubs • Черный: случайный граф • Party hubs: сам и соседи ко-экспрессируются (комплексы) • Date hub: нет корреляции в уровнях экспрессии (сигнальные пути) Han et al., 2004
Устойчивость к атаке (распадение гигантской компоненты)основасети – party hubs • Красный: атака на party hubs • Коричневый: атака на все хабы • Голубой: атака на date hubs • Зеленый: атака на случайные белки
мотивы • клики • много в графах белок-белковых взаимодействий (масс-спек. анализ комплексов – по определению) • подграфы фиксированной структуры, встречающиеся существенно чаще, чем в случайном графе (с теми же свойствами)
Регуляторный каскад • R – транскрипционная регуляция • Х – ко-экспрессия Zhang et al. 2005
R – транскрипционная регуляция • Р – белок-белковое взаимодействие • Н – гомология
Субъединицы факторов транскрипции • R – транскрипционная регуляция • Р – белок-белковое взаимодействие • Н – гомология
R – транскрипционная регуляция • Р – белок-белковое взаимодействие • Х – ко-экспрессия • Н – гомология