第五节基因识别

第五节基因识别 主讲人：孙啸制作人：刘志华东南大学吴健雄实验室

基因识别 • 基因识别是生物信息学领域里的一个重要研究内容 • 基因识别问题，在近几年受到广泛的重视 • 当人类基因组研究进入一个系统测序阶段时，急需可靠自动的基因组序列翻译解释技术，以处理大量已测定的但未知功能或未经注释的DNA序列

原核基因识别 重点在于识别编码区域

非翻译区域（untranslated regions, UTR） • 编码区域两端的DNA，有一部分被转录，但是不被翻译，这一部分称为非翻译区域 • 5’UTR---基因上游区域的非翻译区域 • 3’UTR---基因下游区域的非翻译区域

对于任何给定的核酸序列（单链DNA或mRNA），根据密码子的起始位置，可以按照三种方式进行解释。对于任何给定的核酸序列（单链DNA或mRNA），根据密码子的起始位置，可以按照三种方式进行解释。 • 例如，序列ATTCGATCGCAA • 这三种阅读顺序称为阅读框（reading frames）（1） ATT CGA TCG CAA （2） A TTC GAT CGC AA （3） AT TCG ATC GCA A

一个开放阅读框（ORF,open reading frame）是一个没有终止编码的密码子序列。 • 原核基因识别任务的重点是识别开放阅读框，或者说识别长的编码区域。

基于基因密码子特性的识别方法 • 辨别编码区域与非编码区域的一种方法 • 是检查终止密码子的出现频率终止密码子出现的期望次数为：每21个（ 64/3）密码子出现一次终止密码子

基本思想： • 如果能够找到一个比较长的序列，其相应的密码子序列不含终止密码子，则这段序列可能就是编码区域。 • 基本算法： • 扫描给定的DNA序列，在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后，回头寻找起始密码子。 • 这种算法过于简单，不适合于处理短的ORF或者交叠的ORF。

识别编码区域的另一种方法是分析各种密码子出现的频率识别编码区域的另一种方法是分析各种密码子出现的频率例如，亮氨酸、丙氨酸、色氨酸分别有 6个、4个和1个密码子将一个随机均匀分布的DNA序列翻译成氨基酸序列，则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1 但是在真实的氨基酸序列中，上述比例并不正确这说明DNA的编码区域并非随机

假设在一条DNA序列中已经找到所有的ORF，那么可以利用密码子频率进一步区分编码ORF和非编码ORF假设在一条DNA序列中已经找到所有的ORF，那么可以利用密码子频率进一步区分编码ORF和非编码ORF • 马尔柯夫链模型 • 利用这种方法，可以计算一个ORF成为编码区域的可能性。

一个简单的统计模型 假设相继的密码子是独立的，不存在前后依赖关系。令fabc代表密码子abc在编码区域出现的频率给定序列 a1,b1,c1, a2,b2,c2,…, an+1,bn+1 从密码子a1b1c1开始的阅读框，其n个密码子的出现概率为

第二种和第三种阅读框n个密码子出现的概率分别为第二种和第三种阅读框n个密码子出现的概率分别为

第i个阅读框成为编码阅读框的概率 计算： • 算法：在序列上移动长度为n的窗口，计算Pi 根据Pi的值识别编码的阅读框

基于编码区域碱基组成特征的识别方法 • 编码序列与非编码序列在碱基组成上有区别 • 单个碱基的组成比例 • 多个碱基的组成 • 通过统计分析识别编码序列

分析实例

2、真核基因识别问题 真核基因远比原核基因复杂： • 一方面，真核基因的编码区域是非连续的，编码区域被分割为若干个小片段。 • 另一方面，真核基因具有更加丰富的基因调控信息，这些信息主要分布在基因上游区域。

基因识别基本思路 • 找出基因两端的功能区域: • 转录启动区终止区 • 在启动区下游位置寻找翻译起始密码子 • 识别转录剪切位点 • 剪切给体位点 • 剪切接受体位点

各种不同的方法有不同的适应面，而不同的方法有时可以结合起来以提高基因识别的准确率。各种不同的方法有不同的适应面，而不同的方法有时可以结合起来以提高基因识别的准确率。 • 关键问题是如何提高一个识别算法的敏感性（sensitivity，Sn）和特异性（specificity，Sp）。

3、基因识别的主要方法 两大类识别方法： • 从头算方法（或基于统计的方法） • 根据蛋白质编码基因的一般性质和特征进行识别，通过统计值区分外显子、内含子及基因间区域 • 基于同源序列比较的方法 • 利用数据库中现有与基因有关的信息（如EST序列、蛋白质序列），通过同源比较，帮助发现新基因。 • 最理想的方法是综合两大类方法的优点，开发混合算法。

基因识别方法有： （1）基于规则的系统（2）语义学方法（3）线性辨别分析（LDA）（4）决策树  （5）动态规划 （6）隐马尔柯夫模型  （7）剪切对比排列（spliced alignment）

4、编码区域识别 两类方法： • 基于特征信号的识别 • 内部外显子剪切位点 • 5’端的外显子一定在核心启动子的下游 • 3’端的外显子的下游包含多聚Ａ信号和终止编码 • 基于统计度量的方法 • 根据密码子使用倾向 • 双联密码统计度量等

密码子使用倾向 • 在一个基因中，第i个（i=1，64）密码子相对使用倾向RSCUi的定义如下： • Obsi是该基因中第i个密码子实际出现的次数 Expi是对应密码子期望的出现次数 aai是统计的第i个密码子出现的次数 syni是所有与第i个密码子同义密码子出现的次数 • RSCU大于1表示相应密码子出现的次数比期望次数高，而小于1则表示出现次数相对较少。（5-65）（5-66）

双联密码统计度量 • 设一段DNA序列为S，从S的第i位到第j位的双联密码统计度量IF6（i，j）定义为： fk是从第k位开始的双联密码的频率 Fk是该双联密码随机出现的频率（5-67）

通过相似搜索发现编码区域或者外显子 • EST（Expressed Sequence Tags） • cDNA • 蛋白质序列

目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程 • 同时考虑序列特征信号和统计度量 GRAIL 用人工神经网络识别编码区域

输入是一系列反映功能位点信号特征和序列编码统计特征的参数输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段DNA序列是否是编码区域的判别结果神经网络具有非线性映射能力，能够发现输入和输出之间的高阶相关性

5、构建基因模型 • 基因识别最终任务是建立完整的基因结构模型 • 一个理想的基因识别程序应该能够发现完整的基因结构（…,e1, i1, …, in-1, en ,…） ATG-外显子1 内含子外显子n-UAG 外显子

基因剪切位点 剪切给体（donor）位点- “gt” 接受体（acceptor）位点- “ag”

基因的可变剪切

基因可变剪切示意 gene A

构建基因模型方法 • 剪切位点形成外显子和内含子的边界搜集候选外显子 → 候选基因

候选基因是一条非相交的外显子和内含子的链，表示为候选基因是一条非相交的外显子和内含子的链，表示为（i0, e1, i1, …, en, in）其中ij代表内含子（0jn） el代表外显子（1ln） i0和in并非真实的内含子，它们分别代表基因两侧的非编码序列

候选基因位于给定的DNA序列，并满足下列一致性条件：候选基因位于给定的DNA序列，并满足下列一致性条件：（1）所有外显子加起来的长度是3的整数倍；（2）在各个外显子内部（除最后一个外显子的最后一个密码子），没有终止编码；（3）第一个内含子-外显子边界（i0, e1）是翻译起始编码，而最后一个外显子-内含子边界（en, in）是终止编码。

位点图（分层标注剪切位点） 另设两个特殊的顶点，即起点（source）和终点（sink）。从起点到终点的任何一条路径代表一个可能的基因结构。

例如： 位点图上的路径

候选基因所对应的道路图中的路径

求最优路径 • 每一条弧附加一个权值外显子、内含子度量 • 每个节点附加权值剪切位点度量 • 综合评价

6、用于基因识别的HMM模型 • 隐马尔柯夫模型HMM是一条状态不可见的马尔柯夫链，其当前状态的输出是可见的。 • 每个状态按照一定的概率分布随机地从字母表中取出字符并释放。 • 扩展的隐藏马尔柯夫模型（GHMMs ） • 对HMM进一步抽象，产生更一般的马尔柯夫模型，以分析复杂的脊椎动物基因。

(1) 信号传感器模型 • 将剪切位点、起始编码区域或者终止编码区域看成是DNA序列上的功能位点或者信号位点，用HMM来进行分析

外显子区域 内含子区域保守位点根据对比排列，形成具有19状态的HMM模型。

对前一节所介绍的HMM模型进行修改，可以处理双联核苷酸的问题，即将4种概率分布扩展为16种。对前一节所介绍的HMM模型进行修改，可以处理双联核苷酸的问题，即将4种概率分布扩展为16种。 • 假设一段序列为ACTGTC…，则 P(ACTGTC…)=p1(A)p2(CA)p3(TC)p4(GT)p5(TG)p6(CT)… 其中p1是状态1对于4种核苷酸的概率，p2(xy)状态2的条件概率。

(2) 编码区模型

由于密码子的长度为3，因此密码子模型的最后一个状态应该至少为2阶。由于密码子的长度为3，因此密码子模型的最后一个状态应该至少为2阶。 • 对于2阶的状态，具有64种概率分布，可根据已知编码区域进行统计计算而得到64种分布。例如： p(ACA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(CCA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(GCA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(TCA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] 其中，c(xyz)是密码子xyz的计数。 • 这样的模型可以检测无结束编码的区域，因为对应于三个结束编码TAA、TAG和TGA的p(ATA)、p(GTA)和p(ATG)自动为0。

(3) 组合模型

将上述模型扩展，使之可以识别具有多个外显子的基因。 • 改进后的模型见下图

第五节 基因识别