560 likes | 726 Views
Сравнительная геномика и функциональная аннотация генов и геномов 24. III .2009 , ИМБ. М.С.Гельфанд. Экспоненциальный рост объема данных. красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank).
E N D
Сравнительная геномика и функциональная аннотация генов и геномов24.III.2009, ИМБ М.С.Гельфанд
Экспоненциальный рост объема данных красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank) из 18 миллионов ссылок, ~675 тыс.отвечают на “bioinformat* OR comput*” 16 тыс. “bioinformat*”65 тыс. “bioinformat* OR computat*”
Цель аннотации • Что • функция • Когда • Регуляция • Экспрессии • Время жизни • Где • Локализация • Внутри/снаружи • Органеллы и компартменты • Как • Механизм • Специфичность, регуляция
Поиск похожих последовательностей с известными функциями
How much do we know about the Escherichia coli proteome? Characterized experimentally Function inferred by similarity only “Hypothetical” “Conserved hypothetical”
Перепредсказания SOURCE Methanococcus jannaschii. ORGANISM Methanococcus jannaschii Archaea; Euryarchaeota; Methanococcales; Methanococcaceae; Methanococcus. Now corrected: Hypothetical sodium-dependent transporter MJ1319. FEATURES Location/Qualifiers source 1..492 /organism="Methanococcus jannaschii" /db_xref="taxon:2190" Protein 1..492 /product="sodium-dependent noradrenaline transporter" CDS 1..492 /gene="MJ1319" /note="similar to EGAD:HI0736 percent identity: 38.5; identified by sequence similarity; putative" /coded_by="U67572:71..1549" /transl_table=11
Анекдоты • C75604:Probable head morphogenesis protein,Deinococcusradiodurans • Q8TID9:Benzodiazepine (valium) receptor TspO,Methanosarcina acetivorans • NP_069403:DR-beta chain MHC class II,Archaeoglobus fulgidus
Ошибки в экспериментальных статьях SwissProt: DEFINITION Hypothetical 43.6 kDa protein. ACCESSION P48012 ... KEYWORDS Hypothetical protein. SOURCE Debaryomyces occidentalis ORGANISM Debaryomyces occidentalis Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Debaryomyces. [CAUTION] Was originally (Ref.1) thought to be 3-isopropylmalatedehydrogenase (LEU2). PIR: DEFINITION 3-isopropylmalate dehydrogenase (EC 1.1.1.85) - yeast(Schwanniomyces occidentalis). ACCESSION S55845 KEYWORDS oxidoreductase.
SwissProt:DSDX_ECOLI -!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to thewrong DNA strand and thought to be a D-serine deaminase activator,it was then resequenced by Ref.2 and still thought to be "dsdC",but this time to function as a D-serine permease. It is Ref.1 thatshowed that dsdC is another gene and that this sequence should becalled dsdX. It should also be noted that the C-terminal part ofdsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) andwas thought to be a separate ORF (don't worry, we also haddifficulties understanding what happened!).
SwissProt:DSDX_ECOLI -!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to thewrong DNA strand and thought to be a D-serine deaminase activator,it was then resequenced by Ref.2 and still thought to be "dsdC",but this time to function as a D-serine permease. It is Ref.1 thatshowed that dsdC is another gene and that this sequence should becalled dsdX. It should also be noted that the C-terminal part ofdsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) andwas thought to be a separate ORF (don't worry, we also haddifficulties understanding what happened!).
Другие источники информации (для предсказания чего-то нового) • Много геномов => можем использовать слабые соображения: • Ко-локализация (в геноме): позиционные кластеры • Ко-локализация (геномах):филогенетические паттерны • «Омики»: • Транскриптомика • Протеомика • Интерактомика
STRING: trpB – филогене-тические паттерны
Новый универсальный фактор транскрипции
Консервативный мотив перед генами рибонуклеотид-редуктаз(nrd) в бактериальных геномах
Идентификация фактора транскрипции • Филогенетический паттерн: список геномов, в которых присутствует/отсутствует обнаруженный сигнал=> единственный ген с таким паттерном – ybaD(COG1327) • “макроуровень” – большие таксоны • “микроуровень” – в «смешанных» таксонах: • отсутствует в геномах паразитов в группахальфа- игамма-протеобактерий • отсутствует вDesulfovibrio spp. среди дельта-протеобактерий • отсутствует вNostoc sp. среди цианобактерий • отсутствует вOenococcusиLeuconostocсреди Firmicutes • присутствует только вTreponema denticolaсреди четырех спирохет • COG1327: Гипотетический регулятор транскрипции, содержащий домены цинковая лента (ДНК- и РНК-связывающий) и АТФ-конус
Bork, Koonin:YbaD=RibX,регулятор биосинтеза рибофлавина?
Состав регулона • ген nrdRиногда образует (потенциальные) опероны с генамиnrd genes или с генами репликацииdnaB, dnaI, polA • потенциальные сайты связывания NrdR обнаружены перед другими генами, связанными с репликацией: • топоизомераза I • инициатор репликацииdnaA • разделение (partitioning) хромосом • ДНК-хеликаза II • ре-утилизация (salvage) dNTP
Множественные сайты (гены nrd): FNR, DnaA, NrdR
Механизм регуляции • репрессор • сайты перекрываются спромоторами • кооперативное связывание: • >90% генов имеет парныесайты • расстояние между сайтами (центрами палиндромов) равно целому числу витков спирали ДНК • как правило (94%) 30-33 пн, в 84% случаев 31-32 пн – 3 витка • в Vibrio spp. 21 пн (2 витка) • в некоторых фирмикутах 41-42 пн (4 витка)
Экспериментальное подтверждение
Транспортеры • Два основных класса • АТФ-зависимые • Трансмембранный белок (пермеаза) • АТФаза • Субстрат-связывающий (периплазматический) белок • Вторичные (симпортеры, антипортеры) • Сложный эксперимент(по сравнению с ферментами) • Относительно легко идентифицировать • Сложно предсказать специфичность H+
Разнообразие специфичностей в семействе транспортеров никеля и олигопептидов (субстрат-связывающий белок NikA)
Семейство транспортеров кофакторов PnuC
Функциональный анализ транспортеров • Предсказание общей функции • гомология (сходство с известными транспортерами) • анализ трансмембранных сегментов • Отнесение к функциональной подсистеме (метаболическому пути) • ко-локализация • ко-регуляция • Предсказание специфичности • анализ филогенетического профиля • конечный продукт биосинтетического пути: присутствует в геномах, не имеющих пути (импорт заменяет биосинтез) • промежуточный продукт биосинтетического пути; может заменять часть пути «выше по течению» • исходный продукт катаболического или биосинтетического пути: не встречается в геномах, где этот путь отсутствует
5’-области генов синтеза рибофлавина
RFN, вторичная структура Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs N: any nucleotide. X: any nucleotide or deletion
Регуляторный механизм Transcription attenuation Translation attenuation
YpaA/RibU: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный RFN-элемент => ко-регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника • S. pyogenes, E. faecalis, Listeria: естьypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: • генетический анализ(Кренева и др., 2000) • биохимический эксперимент (Burgess et al., 2006)
Биотиновый транспортер BioY • Идентификация: • ко-локализация • ко-регуляция • филогенетическиепаттерны • Дополнительныекомпоненты • АТФаза(?) bioM • Пермеаза(?) bioN
= thiN (confirmed) Transport of HET Transport of HMP (Gram-positive bacteria) (Gram-negative bacteria) Биосинтез тиамина
yuaJ(=thiT): транспортер тиамина • 6 предсказанных TM-сегментов • Регуляция РНК-переключателями THI • Streptococci: есть ThiT, нет тиаминового пути
ykoFEDC: АТФ-зависимый транспортер • Регуляция РНК-переключателями THI • Никогда не встречается в геномах, не имеющего тиаминового пути • Встречается только вместе с thiDиthiE • Иногда встречается в геномах безthiC
Co и Ni • ко-локализация (хромосомные локусы) • транспортеры Ni – с генами никель-зависимых ферментов • транспортеры Co – с генами синтеза кобаламина • ко-регуляция • транспортеры Ni – фактор транскрипции NikR • транспортеры Co – рибопереключатель В12
Структура локусов genes B12 riboswitch NikR binding site
+ CbiN CbiM Ni2+ Co2+ NikM + NikN + NikL, NikK + NikL Новое семейство транспортеров Co и Ni
Предсказанные специфичности правильны Co Co Ni Ni Ni Co
Структура: слишком много компонентов
Биотиновый транспортер BioY • АТФаза BioM ~ CbiO = NikO • Пермеаза BioN ~ CbioQ = NikQ
Для транспорта достаточно компонент МN(АТФаза и пермеаза не обязательны – первый пример такого транспортера) cbiMNQO cbiMNQ cbiMN cbiM контроль
BioY тоже достаточно(даже в геномах, содержащих BioMN; у BioMNY более крутая кинетика