2.36k likes | 3.16k Views
生物信息学. 一、分子进化分析 (Molecular Evolution Analysis) 二、表达序列分析 (Analysis of Expressed Sequences) 三、基因芯片数据分析 (Analysis of Microarray Data) 四、 SNP 分型技术与数据资源 (SNP Genotyping Technologies and Resources). 生物信息学. 一、分子进化分析 (Molecular Evolution Analysis). 一、分子进化分析. 1. 分子进化分析介绍 2. 系统发育树重建方法
E N D
生物信息学 一、分子进化分析 (Molecular Evolution Analysis) 二、表达序列分析 (Analysis of Expressed Sequences) 三、基因芯片数据分析 (Analysis of Microarray Data) 四、SNP分型技术与数据资源 (SNP Genotyping Technologies and Resources)
生物信息学 一、分子进化分析 (Molecular Evolution Analysis)
一、分子进化分析 • 1. 分子进化分析介绍 • 2. 系统发育树重建方法 • 3. Phylip软件包在分子进化分析中的应用
1. 分子进化分析介绍 进化:是一种不断改进的过程。 “每个生物每时每刻都在为生存进行反复的斗争,如果在复杂多变的生存条件下该生物仍然能够不断改进自己,那么其将有较大的生存可能性,并被自然选择所保留。被自然选择保留下来的物种都倾向于繁殖其已经被改进的新的生命形式” -----《特种起源》
18世纪之前,神创论和物种不变论。 • 18世纪,相信物种是变化的。拉马克用环境作用的影响、器官的用进废退和获得性的遗传等原理解释生物进化过程,创立了第一个比较严整的进化理论。 • 1859年达尔文发表《物种起源》,论证了地球上现存的生物都由共同祖先发展而来,并提出自然选择学说以说明进化的原因,从而创立了科学的进化理论。 • 20世纪30年代,综合进化论,综合了细胞遗传学、群体遗传学以及古生物学等学科的成就,进一步发展了进化理论。 • 20世纪60年代末,分子进化中性学说,认为种内和种间大多数可见差异是适合度很小的随机突变的固定所决定的。
生物学家:We have a dream… • Tree of Life: 重建所有生物的进化历史并以系统树的形式加以描述
梦想走进现实:How? • 1. 最理想的方法:化石!—— 零散、不完整 • 2. 比较形态学和比较生理学:确定大致的进化框架 —— 细节存很多的争议
梦想走进现实:How? • 3. 第三种方案:分子进化 1964年,Pauling等提出分子进化理论: (1) 生命起源:有机分子由简单向复杂演变 (2) 生物进化:构成生物体的生物大分子如蛋白质、核酸的演变。 基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息 意义:分子进化的研究可以为生物进化过程提供佐证,为深入研究进化机制提供重要依据。
分子进化的模式 (1) DNA突变的模式:替代,插入,缺失,倒位 (2) 核苷酸替代:转换 (Transition) & 颠换 (Transversion) (3) 基因复制:多基因家族的产生以及伪基因的产生 • A. 单个基因复制 – 重组或者逆转录 • B. 染色体片断复制 • C. 基因组复制
(1) DNA突变的模式 插入 替代 酪氨酸 酪氨酸 缺失 倒位 亮氨酸 苯丙氨酸 甲硫氨酸 半胱氨酸
(2) 核苷酸替代:转换 & 颠换 • 转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代 • 颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代 A: 腺嘌呤 C: 胞嘧啶 T: 胸腺嘧啶 G: 鸟嘌呤
(3) 基因复制:A. 单个基因复制 重组 逆转录
(3) 基因复制: B. 染色体片段复制 • 缺失—染色体失去了片段 • 重复—染色体增加了片段 • 易位—非同源染色体间相互交换染色体片段,造成染色体间的重新排列 • 倒立—染色体片段作180°的颠倒,造成染色体内的重新排列。
(3) 基因复制: C. 基因组复制 克鲁雄酵母中的同源基因数量与酿酒酵母相比为1:2 K. Waltii (克鲁雄酵母) S. Cerevisiae (酿酒酵母)
分子进化研究的目的 (1) 从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 —— tree of life,物种分类 (2) 大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,进行大分子功能预测 (3) 进化速率分析:例如,HIV的高突变性,哪些位点易发生突变?
(1) Tree of Life: 16S rRNA 真菌 古生菌 真核生物
Out of Africa 随着距非洲距离越来越长,遗传多样性的衰退程度,正好沿着人类早期迁徙的路线慢慢增大。 人类迁移的路线 53个人的线粒体基因组(16,587bp) 非洲人相对其他大陆上的人类在基因上极为多样化
(2) 同源性分析->功能相似性 • Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生 • Ortholog (直系同源物):两个基因在不同物种中。源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因 • Xenolog (异同源物):由某一个水平基因转移事件而得到的同源序列 • Convergent evolution(趋同进化): 通过不同的进化途径获得相似的功能
旁系同源物vs.直系同源物 paralogs orthologs
异同源物 由某一个水平基因转移事件而得到的同源序列
趋同进化 • 不同的生物,甚至在进化上相距甚远的生物,如果生活在条件相同的环境中,在同样选择压的作用下,有可能产生功能相同或十分相似的形态结构,以适应相同的条件。 • 鲸、海豚等和鱼类的亲缘关系很远,前者是哺乳类,后者是鱼类,但形状相似。 • 鸟类与蝙蝠
基因的趋同进化 通过不同的进化途径获得保守/相似的功能
(3) HIV protease: 高突变性 • Ka/Ks >> 1, 强的正选择压力,具有很高的可突变性 (Ka: 异义突变率,Ks:同义突变率)
系统发育树(Phylogenetic tree) 生命三界: 细菌(Eubacteria) 古细菌(Archaebacteria) 真核(Eukaryotes) 基于16S/18S核糖体RNA序列比对得到的古细菌系统发育树
末端分支 末端 物种 顶端 叶子 中间节点 中间枝条 节点 根 系统发育树(Phylogenetic tree) 对一组实际对象的世系关系的描述(如基因,物种等)。 • 用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系 • 通过比较生物大分子序列差异的数值构建的系统树称为分子系统树 一个系统发育树
系统发育树的术语 末端节点 分支/世系 A 代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等 B C D 祖先节点/树根 E 内部节点/分歧点,该分支可能的祖先结点
系统发育树的术语 • 系统发育树是一种二叉树。由一系列节点(nodes)和分支(branches )组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。 • 树的节点又分为外部节点(terminal node)和内部节点(internal node)。外部节点代表实际观察到的分类单元。内部节点又称为分支点,代表分类单元进化历程中的祖先。
a b c d a c b d 系统发育树的种类: 有根树、无根树 理论上,一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二叉的。 一般考虑二叉的树结构:二叉树 拓扑结构: 有根树:反映时间顺序 无根树:反映距离
eukaryote eukaryote eukaryote eukaryote 系统发育树的种类: 有根树、无根树 archaea archaea 无根树 archaea 外围支 Rooted by outgroup bacteria outgroup archaea Monophyletic group(单源支) archaea archaea eukaryote 有根树 Monophyletic group eukaryote root eukaryote eukaryote
选择外围支 (Outgroup) 1. 选择一个或多个已知与分析序列关系较远的序列作为外围支 2. 外围支可以辅助定位树根 3. 外围支条件:序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著
系统发育树的种类:基因树、物种树 • 基因树: • 由来自各个物种的一个基因构建的系统发育树(不完全等同于物种树),表示基因分离的时间。 • 物种树: • 代表一个物种或群体进化历史的系统发育树,表示两个物种分歧的时间。 A a Species tree Gene tree B b D c
进化分支图,进化树 Bacterium 1 进化分支图:只有分支信息,无支长信息。 Bacterium 2 Bacterium 3 Eukaryote 1 Eukaryote 2 Eukaryote 3 Eukaryote 4 Bacterium 1 进化树:有分支和支长信息。 Bacterium 2 Bacterium 3 Eukaryote 1 Eukaryote 2 Eukaryote 3 Eukaryote 4
系统发生树性质 • 如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元。 • 如果找不到可以作为树根的单元,则系统发生树是无根树。 • 从根节点出发到任何一个节点的路径指明进化时间或者进化距离。
系统发生树性质 • 对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的。 系统发生分析的目标 —— 寻找这棵正确的树
分子进化研究的基础 • 假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。 • 理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论, 1965 ) • 虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。
y 分子钟理论 从一个分歧数据可以推测其他 序 列 分 歧 度 x 分歧时间
分子钟与线性树 1. 物种分化时间的推断:最理想应该是化石证据 2. 由于化石证据的不足,可以采用分子数据推测物种的分化时间 3. 给定一个进化树, 已知: • A. 分支长度 • B. 其中一个分歧点的分化时间 推测所有分歧点的分化时间: 突变的速率恒定
实际数据中 1. 同义替代与非同义替代的速率不同 2. 不同的基因/蛋白质,其进化的速率不同 3. 对于特定的基因,具有一定的、恒定的进化速率
分子钟假设 1. 序列之间的遗传差异的数量是自分化以来的时间的函数 2. 分子变化的速率相当稳定,可以用来预测分化的时间
分子钟: 进化时间的估计 1. 遗传距离d的计算: • A. 氨基酸序列:p-距离,d-距离,Γ-距离 • B. DNA序列:Jukes-Cantor距离,Kimura距离 2. 物种分歧点:使用考古数据确定共有祖先,确定分化时间T 3. 计算分子的分化/进化的速率:r=d/2T 4. 对新的序列,计算分化时间: • Tnew=dnew/2r
物种分化时间:化石证据 1. 灵长目-啮齿动物: ~80 Myr ago 2. 哺乳动物-鸟类: ~310 Myr ago 3. 哺乳动物-两栖类: ~350 Myr ago 4. 四肢动物-硬骨鱼: ~430 Myr ago 5. 脊椎动物-果蝇 (昆虫): ~830 Myr ago
一、分子进化分析 • 1. 分子进化分析介绍 • 2. 系统发育树重建方法 • 3. Phylip软件包在分子进化分析中的应用
系统发育树重建分析步骤 多序列比对(自动比对,手工比对) 建立取代模型(建树方法) 建立进化树 进化树评估
系统发育树的构建 1. 系统发育树:分子进化树/分子进化分析 2. 通过进化树的构建,分析分子之间的起源关系,预测分子的功能 3. 建树方法: • A. 最大简约法 (Maximum Parsimony) • B. 距离法 (distance-based methods) • C. 最大似然性法 (Maximum Likelihood)
A. 最大简约法(MP) 最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。 最大简约法的理论基础是奥卡姆(Ockham)原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,计算出所需替代数最小的那个拓扑结构,作为最优树。
信息位点 (Sites are informative) 1. 必须在至少2个类群中具有相同的序列性状 2. 指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点 Position 5, 7, 9为信息位点
1. 基于position 5的三个MP: Tree 1长4,Tree 2长5,Tree 3长6 2. 计算结果:MP tree的最优结果为tree 1