350 likes | 361 Views
Функциональная аннотация. М.Гельфанд «Сравнительная геномика» БиБи, 4 курс осень 200 9. Цель аннотации. Что функция Когда Регуляция Экспрессии Время жизни Где Локализация Внутри/снаружи Органеллы и компартменты Как Механизм Специфичность, регуляция. Функции (условно). Ферменты
E N D
Функциональная аннотация М.Гельфанд «Сравнительная геномика» БиБи, 4 курс осень 2009
Цель аннотации • Что • функция • Когда • Регуляция • Экспрессии • Время жизни • Где • Локализация • Внутри/снаружи • Органеллы и компартменты • Как • Механизм • Специфичность, регуляция
Функции (условно) • Ферменты • Метаболизм (катаболизм, анаболизм) • Биосинтез макромолекул • Транспортеры • Регуляторы • Рецепторы • Белки сигнальных каскадов • Факторы транскрипции и т.п. • Структурные и «вспомогательные» белки • Цитоскелет, движение, деление • Межклеточные взаимодействия (рецепторы) • Шапероны. Большие комплексы
Три иерархии • Молекулярная функция • Биологический процесс • Компонент клетки Пример: цитохром с • Транспорт электронов • Окислительное фосфорилирование • Внутренняя мембрана митохондрии Геномные базы: • FlyBase (дрозофила) • SGD (Saccharomyces Genome Database) • MGD (Mouse Genome Database)
Молекулярная функция - примеры • Широкие категории: • Каталитическая активность • Транспортная активность • Связывание • Узкие категории: • Адениат-циклазная активность • Связывание Ca2+ Можно и по-другому (EC, TC) – это потом
Биологический процесс - примеры • Широкие категории: • Cellular physiological processes • Перенос сигнала (signal transduction) • Узкие категории: • Метаболизм пиримидинов • Транспорт альфа-глюкозидов • Асимметричное деление клеток
Структура иерархии: сеть Biological process • Cellular process • Cellular physiolgical process • Cell division • Asymmetric cell division • Regulation of asymmetric cell division • Regulation of cell division • Regulation of asymmetric cell division • Regulation of cellular physiological process • Regulation of cell division • Regulation of assymmetric cell division • Physiological process • Cellular physiolocical process • … • Regulation of physiological process • …
Упражнение Нарисовать пути, ведущие к: (А-Д) GO:0045782 : positive regulation of cell budding GO:0004612 : phosphoenolpyruvate carboxykinase (ATP) activity (Е-К) GO:0019568 : arabinose catabolism GO:0003726 : double-stranded RNA adenosine deaminase activity (Л-Н) GO:0030660 : Golgi vesicle membrane GO:0030570 : pectate lyase activity (О-П) GO:0019319 : hexose biosynthesis GO:0047689 : aspartate racemase activity (Р-С) GO:0006068 : ethanol catabolism GO:0004129 : cytochrome-c oxidase activity (Т-Я) GO:0030334 : regulation of cell migration GO:0003705 : RNA polymerase II transcription factor activity, enhancer binding используя AmiGO http://www.geneontology.org AmiGo http://www.godatabase.org/cgi-bin/amigo/go.cgi?search_constraint=terms&action=replace_tree&session_id=7922b1125244220
Параметры BLAST: wordsize • Цистеиновые протеазы из люцернового долгоносика и коровьего клеща: 61% тождества, а BLASTN не находит.Для ДНК Wordsize=11(min 7), для белков =3.
Similarity ≠ homology • BLAST e-value is a measure of non-randomness of sequence similarity • Possible causes of similarity: • homology • domain homology • low complexity, coiled-coil, transmembrane and other types of regions with non-standard amino acid composition • Homology ≠ same function. Normally: • similar (general) function (e.g. enzymatic activity) • maybe different specificity
Предсказание специфичности: дерево распадается на две ветви – все нормально (A novel type of Ni /Co ABC transporters. Transmembrane component CbiM/NikM) + CbiN CbiM Ni2+ Co2+ NikM + NikN + NikL, NikK + NikL
Предсказание специфичности: все смешалось – нет предсказания (The NiCoT transportersfamily)
Предсказание специфичности: смена специфичности – ошибки (The NikABCDE family of ABC transporters.Substrate-binding component NikA)
Noradrenaline transporter in an archaeon? SOURCE Methanococcus jannaschii. ORGANISM Methanococcus jannaschii Archaea; Euryarchaeota; Methanococcales; Methanococcaceae; Methanococcus. Now corrected: Hypothetical sodium-dependent transporter MJ1319. FEATURES Location/Qualifiers source 1..492 /organism="Methanococcus jannaschii" /db_xref="taxon:2190" Protein 1..492 /product="sodium-dependent noradrenaline transporter" CDS 1..492 /gene="MJ1319" /note="similar to EGAD:HI0736 percent identity: 38.5; identified by sequence similarity; putative" /coded_by="U67572:71..1549" /transl_table=11
Lesson(s) • Avoid overprediction (homology does not necessarily mean same cellular role or specificity)
Similarity to hypothetical proteins: somebody else’s errors… The only correct annotation!
Genes with curious functional assignments • C75604: Probable head morphogenesis protein,Deinococcusradiodurans • O05360:Automembrane protein H,Yersinia enterocolitica • Q8TID9:Benzodiazepine (valium) receptor TspO, Methanosarcina acetivorans • NP_069403: DR-beta chain MHC class II, Archaeoglobus fulgidus
Errors in experimental papers SwissProt: DEFINITION Hypothetical 43.6 kDa protein. ACCESSION P48012 ... KEYWORDS Hypothetical protein. SOURCE Debaryomyces occidentalis ORGANISM Debaryomyces occidentalis Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Debaryomyces. [CAUTION] Was originally (Ref.1) thought to be 3-isopropylmalatedehydrogenase (LEU2). PIR: DEFINITION 3-isopropylmalate dehydrogenase (EC 1.1.1.85) - yeast(Schwanniomyces occidentalis). ACCESSION S55845 KEYWORDS oxidoreductase.
SwissProt entry DSDX_ECOLI -!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to thewrong DNA strand and thought to be a D-serine deaminase activator,it was then resequenced by Ref.2 and still thought to be "dsdC",but this time to function as a D-serine permease. It is Ref.1 thatshowed that dsdC is another gene and that this sequence should becalled dsdX. It should also be noted that the C-terminal part ofdsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) andwas thought to be a separate ORF (don't worry, we also haddifficulties understanding what happened!).
Lesson(s) • Avoid overprediction (homology does not necessarily mean same cellular role or specificity) • Check carefully the source(s) of annotations in the list of homologs
Filtering of low-complexity segments • often insufficient • may lose non-trivial information
Lesson(s) • Avoid overprediction (homology does not necessarily mean same cellular role or specificity) • Check the source(s) of annotations in the list of homologs • Beware of similarity in low-complexity regions, non-globular domains, transmembrane segments
Homology of domains I64228: “DNA polymerase homolog” (in fact, 5’-3- exonuclease) Klenow fragment Bacterial DNA polymerases
Lesson(s) • Avoid overprediction (homology does not necessarily mean same cellular role or specificity) • Check the source(s) of annotations in the list of homologs • Beware of similarity in low-complexity regions, non-globular domains, transmembrane segments • Do not extend domain homology to annotation of the whole protein
PROSITE • Множественное выравнивание консервативные позиции паттерны • Вырожденные паттерны • P-loop ATPases: • [GA]x(4)GK[ST] • Очень малая избирательность
Профили. PSI-BLAST • Значимость (E=0.005), 1 лишний на 200 поисков • Ручная прочистка при итерациях • Автоматически – до схождения • Асимметрия
Lesson(s) • Avoid overprediction (homology does not necessarily mean same cellular role or specificity) • Check the source(s) of annotations in the list of homologs • Beware of similarity in low-complexity regions, non-globular domains, transmembrane segments • Do not extend domain homology to annotation of the whole protein • Правильный паттерн должен сохраняться у (близких) ортологов; должны сохраняться основные каталитические остатки
Анализ белка в отсутствие гомологов • Сигнальные пептиды. SignalP (нейронная сеть) • Трансмембранные сегменты. Две дюжины серверов (TMHMM, PHDhtm, HMMTOP) • Гидрофобные/гидрофильные • Сигнал на границе • Топология (положительные внутри) • Использование выравниваний • Бета-белки. Порины • Локализация. PSORT, TargetP • Coiled coil. COILS, Parcoil/Multicoil • Вторичная и пространственная структура. Threading • Сравнительная геномика и негеномные данные