240 likes | 396 Views
原核生物基因组岛的 建模与识别. The detection Of Genomic Islands in Prokaryotic Genomes. 2010 年 7 月 北京师范大学数学科学学院 北京师范大学生命科学学院生物信息实验室 梁潇 曹莎 姜洁怡 Directed by 林魁 毛永华. 2. 3. 1. 4. 背景介绍. 研究计划. 其它说明. 项目创新点. · 研究背景. 幽门螺杆菌 Helicobacter pylori 革兰氏阴性菌,幽门螺杆菌是人类至今唯一一种已知的胃部细菌 。 由于长期的溃疡,会导致癌症,是第一个可致癌的原核生物。.
E N D
原核生物基因组岛的建模与识别 The detection Of Genomic Islands in Prokaryotic Genomes 2010年7月 北京师范大学数学科学学院 北京师范大学生命科学学院生物信息实验室 梁潇 曹莎 姜洁怡 Directed by 林魁 毛永华
. 2 3 1 4 背景介绍 研究计划 其它说明 项目创新点
·研究背景 幽门螺杆菌 Helicobacter pylori 革兰氏阴性菌,幽门螺杆菌是人类至今唯一一种已知的胃部细菌。由于长期的溃疡,会导致癌症,是第一个可致癌的原核生物。 • 在疾病的预防和治疗方面,人类取得了长足的进展。 • 但是新现和再现的微生物感染还是不断发生,像大量的病毒性疾病一直缺乏有效的治疗药物。 • 一些疾病的致病机制并不清楚。 • 大量的广谱抗生素的滥用造成了强大的选择压力,使许多菌株发生变异,导致耐药性的产生。 • 人类健康受到新的威胁 • 一些分节段的病毒之间可以通过重组或重配发生变异,最典型的例子就是流行性感冒病毒。 • 每次流感大流行流感病毒都与前次导致感染的株型发生了变异,这种快速的变异给疫苗的设计和治疗造成了很大的障碍。 • 而耐药性结核杆菌的出现使原本已近控制住的结核感染又在世界范围内猖獗起来。 微生物对人类最重要的影响之一是导致传染病的流行。在人类疾病中有50%是由病毒引起。世界卫生组织公布资料显示:传染病的发病率和病死率在所有疾病中占据第一位。微生物导致人类疾病的历史,也就是人类与之不断斗争的历史。 铜绿假单胞菌 P.Aeruginosa 原称绿脓杆菌,有复杂的耐药机制,影响肺部及泌尿道,造成烧伤、伤口及血液感染,如败血病;亦会造成肺炎。10%在医院感染的病症都是由绿脓杆菌所引致的。它亦是引致皮肤炎的其中一种细菌。 鲍曼不动杆菌 Acinetobacter Baum Annie 20世纪70年代,鲍曼不动杆菌几乎对所有抗生素都很敏感。由于它具有惊人的迅速获得抗药性的能力,目前已对多种抗菌药物表现耐药。
基因组岛的研究价值 微生物的致病作用 基因组岛的进化起源 基因组岛的删除 基因组岛的插入机制 基因组岛在菌株间的转移机制 抗生素抗性 共生微生物的共生性 外源性化合物的降解
何为基因组岛? 一般是指原核生物基因组染色体上一段具有有别于该基因组背景典型特征的DNA片段基因簇,具有移动元件的特征,如G+C百分比和密码子使用情况与宿主菌不同,其通常具有移动元件的特征,常含移动基因,可以在同种甚至于不同种菌株间水平转移。 FEMS Microbiology Reviews Vol. 33, 2 Pages: 376-393
. 2 3 1 4 研究计划 背景介绍 其它说明 项目创新点
. 研究目标 实验路线 研究内容 可行性分析 研究进度 预实验结果
项目的研究目标 通过整合统计学、机器学习、比较基因组学等方法,设计并实现一个有较好性能的原核生物基因组岛识别分析系统。
项目的研究内容 1. 通过具有较高敏感性的方法寻找出待测基因组的基因组岛。 2. 用统计分析的方法研究基因组岛边缘序列的结构特征及其局部区域相关关系,建立起更准确的识别基因组岛的马尔可夫识别模型。整合我们自己研究的原核生物基因组进化方法进行备选基因组岛的比较基因组学鉴定。 3. 设计评价指标来评价所设计的系统,检验算法于模型的有效性及实用性。 4. 利用基于Linux的MySQL数据库系统,PERL/C++编程以及Apache服务器实现整个系统并提供给相关科学家使用。 拟解决的关键问题 1.基于全基因组的基因组岛识别算法的优化模型建立 2.识别的性能(准确性)评价
第一阶段 基因组岛区域 全基因组序列数据 第一阶段 第二阶段 第二阶段 第一阶段 第一阶段 待分析序列 Z-curve 处理数据 系统发育 准确性判断模型 第三阶段 MYSQL数据库 第三阶段 第二阶段 第二阶段 最终优化方案 第四阶段 第四阶段 进化关系 第三阶段 第三阶段 建立隐马氏模型 (HMM) 否 提取特征参数 返回修改模型参数 是否达到预设阀值? 第四阶段 第四阶段 是 比较基因组法 编程实现整个系统 最终优化方案 初步识别 基因组岛 基因组岛区域 实验路线流程图
实验的可行性分析 1 全基因组测序计划的实行,使我们通过互联网即可拥有可靠的已测序的全基因组数据来源,如GenBank数据库检索系统:http://ncbi.nlm.nih.gov/genbank/query_form.html。成熟的WEB程序及具体的数据、地址可在有关资料上找到,这给了我们开发相关程序很好的参考。 2 基因组岛识别研究的系统方法虽然还属于起步阶段,但基因识别从其初期的到现在已有多年,技术已相当成熟,与之相对应的软件系统开发也很全面、系统。利用统计学以及机器学习技术改进基因组岛识别的系统的可操作性很强,在我们的研究时段内可以顺利完成。
. 2 3 1 4 IslandPick Z-Curve 其它说明 SIGI-HMM
BLAST • BLAST(Basic Local Alignment Search Tool") 是一个用来比对生物序列的一级结构(如不同蛋白质的氨基酸序列或不同基因的DNA序列)的算法。 • 已知一个包含若干序列的数据库,BLAST可以让研究者在其中寻找与其感兴趣的序列相同或类似的序列。 例如如果某种非人动物的一个以前未知的基因被发现,研究者一般会在人类基因组中做一个BLAST搜索来确认人类是否包含类似的基因(通过序列的相似性)。
. 2 3 1 4 IslandPick Z-Curve 其它说明 SIGI-HMM
窗口化方法 使用20kb的窗口在Bacillus cereus(蜡样芽孢杆菌)和Bacillus anthracis(炭疽芽孢杆菌)的全基因组上滑动所得到的GC含量的分布图。
Z-curve • DNA序列一一对应于一条Z-curve • Xn=(An+Gn)-(Cn+Tn) • Yn=(An+Cn)-(Gn+Tn) • Zn=(An+Tn)-(Gn+Cn) • 特别地,Zn分量体现了整个序列的GC/AT的分布
Z-curve • 对于一个AT丰富的基因组,Zn是近似的关于n的单调增的线性函数。反之,在GC含量比较丰富的区域,Zn是近似的关于n的单调减的函数。 • 曲线Zn~n可以用一条直线使用最小二乘法拟合。该曲线为Z=kn,易知,它对应的基因组的GC含量是稳定的。 • 令Zn’=Zn-kn,GC含量的改变被放大。(??) • 这样,Zn曲线和直线的偏差,即Z’曲线就可以突出地刻画基因组内GC含量的偏差了。
Z’曲线的几何意义 • Z’曲线被称为累积GC含量轮廓图 • 对于序列上某一段特定的序列∆n,它内部的GC含量的平均值有如下关系:
Z’曲线的几何意义 • 从上式可以看出累积GC含量图——Z’曲线的特征: • 1)如果曲线的某一个区域接近于一条直线,则该区域的GC含量几乎保持不变; • 2)曲线上任何一个突然的最大(小)点预示着一个转折点——GC含量经历了一个很突然的从相对低(高)到相对高(低)的变化。
累积GC含量轮廓图 • 在基因组某一碱基处的G+C 含量是关于Z’曲线在该点切线的斜率的一个很简单函数。 • 在某一窗口中的平均G+C 含量则正比于此函数在该窗口内的定积分。这样,我们就把生物学中G+C 含量的概念拓广了,使之在基因组处处都有定义。如果不从微积分的角度来看,很难理解基因组在某一碱基位置处的G+C 含量是什么意思。 • 精度高,不需要滑动窗口;极限情况下,就算只有一个碱基也能计算;
累积GC含量轮廓图 绿色:Bacillus cereus 粉红区域:GI 蓝色:Bacillus anthracis 紫色:Bacillus cereus去除掉GI区域以后
原核生物基因组岛的建模与识别 -END-