460 likes | 717 Views
蛋白质功能注释系统与二级数据库的构建及 顺式自然反义转录本的鉴定与进化分析. 张勇 6/08/2006 Center for Bioinformatics. 提纲. 提纲. 蛋白质功能注释系统 ( Proteome Annotation Knowledgebase, PAK )和相关二级数据库 以蛋白为中心的和以模体为中心的注释系统 分泌蛋白数据库和突触蛋白数据库 顺式自然反义转录本的鉴定( cis- natrual antisense transcripts, cis -NATs) 和进化分析 cis-NATs 的鉴定和特征分析 cis-NATs 的进化分析.
E N D
蛋白质功能注释系统与二级数据库的构建及顺式自然反义转录本的鉴定与进化分析蛋白质功能注释系统与二级数据库的构建及顺式自然反义转录本的鉴定与进化分析 张勇 6/08/2006 Center for Bioinformatics
提纲 提纲 • 蛋白质功能注释系统 (Proteome Annotation Knowledgebase, PAK)和相关二级数据库 • 以蛋白为中心的和以模体为中心的注释系统 • 分泌蛋白数据库和突触蛋白数据库 • 顺式自然反义转录本的鉴定(cis-natrual antisense transcripts, cis-NATs)和进化分析 • cis-NATs的鉴定和特征分析 • cis-NATs的进化分析
第一章:蛋白质功能注释系统::内容 蛋白质功能注释系统(PAK)
第一章:蛋白质功能注释系统::PCAS 以蛋白为中心的注释系统(Protein-Centric Annotation System,PCAS) Yong Zhang, Yanbin Yin, Yunjia Chen, Ge Gao, Peng Yu, Yingchu Luo and Ying Jiang. (2003) PCAS – a precomputed proteome annotation information resource. BMC Genomics 4:42
第一章:蛋白质功能注释系统::MCAS 以模体为中心的注释系统(Motif-Centric Annotation System,MCAS)
第一章:蛋白质功能注释系统::SPD 分泌蛋白数据库(Secreted Protein Database,SPD) Yunjia Chen*, Yong Zhang*, Yanbin Yin, Ge Gao, Songgang Li, Ying Jiang, Xiaocheng Gu, and Jingchu Luo. (2005) SPD—a web-based secreted protein database. Nucleic Acids Res., 33, D169-173.
第一章:蛋白质功能注释系统::SynDB 突触蛋白数据库(SYNapse related protein DataBase,SynDB)
第一章:蛋白质功能注释系统::SynDB SynDB的用户访问量 http://big.sfn.org/NDG/site/eavData.asp?o=29001
小结 • 蛋白质功能注释系统的构建补充了当时的注释系统。 • 多个专门二级数据库的开发方便了相关领域的研究人员。 • 超过2,000,000的点击数证明了这些网上资源的意义。
提纲 提纲 • 蛋白质功能注释系统 (Proteome Annotation Knowledgebase, PAK)和相关二级数据库 • 以蛋白为中心的和以模体为中心的注释系统 • 分泌蛋白数据库和突触蛋白数据库 • 顺式自然反义转录本的鉴定(cis-natrual antisense transcripts, cis-NATs)和进化分析 • cis-NATs的鉴定和特征分析 • cis-NATs的进化分析
第二章:顺式自然反义转录本::引言 顺式自然反义转录本(cis-natrual antisense transcripts)的定义 SA (Sense-Antisense pair,SA基因对) NOB (Non-exon-Overlapping Bidirectional) NBD (Non-BiDirectional)
第二章:顺式自然反义转录本::引言 可能的作用机制
第二章:顺式自然反义转录本::引言 当前生物信息学工作中的局限 • 证据使用的不完整性(序列类型、蛋白编码区、polyA信号、polyA尾和剪切位点GT-AG) • 分类过于模糊,研究的物种比较局限;这导致某些结论相互冲突。
第二章:顺式自然反义转录本::鉴定 鉴定方法
第二章:顺式自然反义转录本::鉴定 转录本方向鉴定中重要的两个证据:标准切点和polyA AATAAA AATAAA AATAAA AAATAA AAATAA AAATAA Nature biotechnology
第二章:顺式自然反义转录本::鉴定 结果统计
第二章:顺式自然反义转录本::分析 不同种类SA基因对的丰度
第二章:顺式自然反义转录本::分析 复杂的基因四联体
第二章:顺式自然反义转录本::分析 印记基因和反义转录本的关系
第二章:顺式自然反义转录本::分析 小鼠的SA对的染色体分布(1)
第二章:顺式自然反义转录本::分析 人的SA对的染色体分布(2)
Section 2: cis-NATs=>Analysis 果蝇的SA对的染色体分布(3) Current Opinion in Genetics & Development
第二章:顺式自然反义转录本::分析 功能分布(Gene Ontology)
第二章:顺式自然反义转录本::分析 功能分布(KEGG Ontology)
第二章:顺式自然反义转录本::分析 人/小鼠/大鼠中都保守的SA对
小结 • 我们设计了一个快速的流程,从而得到了一个包括十个物种的SA基因对的数据集。 • 整合多方面的信息使得这个数据集比较全面。 • 这个多物种的数据集使得我们查明了前人工作中的相互矛盾之处。 • 这个数据集方便了后继的进化分析。 Yong Zhang, XS Liu, Qing-Rong Liu and Liping Wei. Genome-wide in silico Identification and Analysis of cis Natural Antisense Transcripts (cis-NATs) in Ten Species. (submitted)
提纲 提纲 • 蛋白质功能注释系统 (Proteome Annotation Knowledgebase, PAK)和相关二级数据库 • 以蛋白为中心的和以模体为中心的注释系统 • 分泌蛋白数据库和突触蛋白数据库 • 顺式自然反义转录本的鉴定(cis-natrual antisense transcripts, cis-NATs)和进化分析 • cis-NATs的鉴定和特征分析 • cis-NATs的进化分析
第二章:顺式自然反义转录本::进化 Lipman假说与SA基因重叠区的保守性 Nucleic Acids Research
第二章:顺式自然反义转录本::方法 用phastCons来描述每个碱基的保守性 Nucleic Acids Research
第二章:顺式自然反义转录本::方法 phastCons 与 best2best的比较 • best2best方法。背后的逻辑是同源基因之间应该比其它基因更为相似。 • 对于基因库不完全或者含有很多相似基因的家族而言,它的性能就不容乐观。 • 另外,它也不能覆盖非蛋白编码基因。
第二章:顺式自然反义转录本::整体分析 5’ UTR, CDS和3’ UTR中重叠区和非重叠区的整体比较(1)
第二章:顺式自然反义转录本::整体分析 5’ UTR, CDS和3’ UTR中重叠区和非重叠区的整体比较(2)
第二章:顺式自然反义转录本::3’UTR 38个人的3’-3’ SA对(phastCons>=0.9)
第二章:顺式自然反义转录本::3’UTR 其它可能原因的排除 • microRNA结合位点TargetScan & miRBase 3’UTR重叠区的密度为12/1kb,非重叠区的密度则是26/1kb • 其它已知的3’-UTR中的模体UTRScan只有三个重叠区含有这样的元素
第二章:顺式自然反义转录本::3’UTR 反义RNA可以增强正义RNA的稳定性?
第二章:顺式自然反义转录本::3’UTR 典型例子: MKRN2/RAF1
第二章:顺式自然反义转录本::CDS 同义突变的评估 人的SA基因HX和HXp 人、小鼠基因组比对 Bioperl 小鼠同源基因MX和MXp POA MXp和HXp的比对 pal2nal 分析重叠区和非重叠区同义突变位点的富集程度(FisherTest) 基于密码子的MX和HX的比对
第二章:顺式自然反义转录本::CDS 突变的同义位点的百分比
第二章:顺式自然反义转录本::CDS 密码子偏好性分析 • Effective Number of Codons (ENC) • 滑动窗口分析 • 91%的人类序列和84%的小鼠序列没有ENC的降低
第二章:顺式自然反义转录本::CDS 二级结构稳定性分析 • 四倍简并位点的胞嘧啶含量(C4)往往暗示着mRNA二级结构水平上的选择压力 • 对至少含有10个四倍简并位点的153条人类序列和83条小鼠序列,重叠区的C4丰度与整体无差异。
第二章:顺式自然反义转录本::CDS 可变剪切 • 剪切增强子 (exonic splicing enhancers,ESE) Rescue-ESECDS重叠区75/1k:非重叠区139/1k • 剪切抑制子(exonic splicing silencers,ESS )FAS-ESS重叠区35/1k:非重叠区38/1k
Section 2: cis-NATs=>CDS 典型实例:ErbAa/NR1D1
第二章:顺式自然反义转录本::表达谱 SA对的表达谱分析 • 上述的38对基因中22对有SAGE的表达数据,其中17对(77%)共表达或者互斥表达。 • 上述163个基因中,40个有表达数据,其中24(60%)个基因来自共表达或者互斥表达的基因对。
第二章:顺式自然反义转录本::总结 分析Lipman假说(重叠区的进化分析)的意义 • Lipman假说同时适用于脊椎动物和无脊椎动物。 • 高的进化压力局限与重叠区,并没有向非重叠区延伸太多。 • 重叠区的生物学功能使得同义位点承受进化压力而不再满足中性进化 • 我们对于ARE的分析支持了反义RNA可能可以普遍提高正义RNA的稳定性。 • phastCons和同义突变位点的分析有助于筛选相互作用的SA基因对。 Yong Zhang and Liping Wei. Testing Lipman’s hypothesis: Sense-antisense pairing contributed to disproportional conservation in 3’ UTR and CDS. (Under preparation)
Acknowledgements 致谢 • 龙漫远教授、刘晓乐教授、刘青荣博士和许卫峰博士 • 魏丽萍教授 • 姜颖博士 • 顾孝诚教授、罗静初教授和李松岗教授 • 尹燕彬、陈蕴佳 感谢老师、同学们的参与!