1.06k likes | 1.33k Views
核酸序列分析及结构预测 主 讲 张 军 细胞生物学及遗传学教研室. 第一节 核酸序列的数据形式 1. 串( string )符号或字符的有序排列,符号或字符来自有限集合 {A, T, G, C} 。序列( sequence )与串是同一概念。 s=ATTGCATATG ;串的长度 |s|; 串 s 某个位置的字符表示为 s i , 1 ≤ i ≤ |s| 。 特别的,长度为 0 的串称为空串( empty string ),用符号 ε 表示。. 2. 子串( substring )和子序列( subsequence ),二者不是相同的概念。 子串和超串
E N D
核酸序列分析及结构预测 主 讲 张 军 细胞生物学及遗传学教研室
第一节 核酸序列的数据形式 1. 串(string)符号或字符的有序排列,符号或字符来自有限集合{A, T, G, C}。序列(sequence)与串是同一概念。 s=ATTGCATATG;串的长度|s|; 串s某个位置的字符表示为si ,1≤i≤|s|。 特别的,长度为0的串称为空串(empty string),用符号ε表示。
2. 子串(substring)和子序列(subsequence),二者不是相同的概念。 子串和超串 s=ATGCGGTA; t=TGCGG; s是t的超串 子序列和超序列 s=ATGCGGTA; t=TGTA; s是t的超序列 区间(interval) s=ATGCGGTACGTATACG; u=CG, s[i, i+1]
3. 串u和w的拼接(concatenation),表示为uw。 例如 s = ATGCGGTA; t=TGCGG st = ATGCGGTATGCGG ts = TGCGGATGCGGTA 串的冥 s = AT;sss= AT AT AT=s3 串的前缀(prefix) s = ATGCGGTAGC; prefix(s,3)=ATG; prefix(s,0) = ε 存在且只存在s的另1个子串u, 使得s=tu, t是u的前缀。
串的后缀(suffix) s = ATGCGGTAGC suffix(s,3) =AGC; suffix(s,2) =GC ;suffix(s,0) = ε 存在且只存在s的另1个子串u, 使得s=ut, t是u的后缀。 杀手因子(killer agent),假定存在1个特别的串κ |κ|=-1 在与其它串拼接的时候,起到删除相邻字符的作用
例如, s = ATGCGGTAGC κ s= TGCGGTAGC s κ= ATGCGGTAG ATGC κ GGTAG ? 无意义 (ATGC κ) GGTAG≠ ATGC (κ GGTAG ) stu=(st)u=s(tu); |s| ≠-1, |t| ≠-1, |u| ≠-1 |st| = |s| + |t| ,s和t可以是任何串
利用杀手因子可以表示1个串的子串,前缀和后缀利用杀手因子可以表示1个串的子串,前缀和后缀 s[i…j]= κi-1 s κ |s| -j prefix(s, k) = s κ |s| -k Suffic(s, k) = κ |s| -k s
第二节 序 列 比 较 序列比较的根本任务: 发现序列之间的相似性 辨别序列之间的差异 序列比较的目的: 相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系
序列的相似性 同源(homology)- 具有共同的祖先 直向同源(Orthologous ) 共生同源(paralogous ) 相似(similarity) 同源序列一般是相似的 相似序列不一定是同源的 进化趋同(同功能)
直向同源(a1 in species I, a1 in species II) 共生同源(a1 and a2 in species I) 基因复制 进化趋同 水平转移
序列相似性的描述 • 定性的描述 • 定量的数值 • 相似性 • 距离
序列比较的基本操作是比对(Alignment) • 两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列 。 例如,设有两个序列: s=GACGGATTAG,t=GATCGGAATAG • Alignment1: • GACGGATTAG • GATCGGAATAG • Alignment2: • GA-CGGATTAG GATCGGAATAG
字母表和序列 字母表(字符或符号集合) • 4字符DNA字母表:{A, C, G, T} • 扩展的遗传学字母表或IUPAC编码 • 单字母氨基酸编码
序列比对的生物学背景 分子生物学实验技术和大规模测序方法的发展,使复杂序列之间的比较成为实验室的常规数据分析。 基因组学的发展,物理图谱的构建,DNA的拼接求。 一个或一些序列与其它数据序列的比较。 两个序列之间是否存在相同的子串。 个序列与数据库中序列是否存在相似的子串。
序列比较可以分为五种基本情况:(1)两条长度相近序列相似性分析,找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列(5)对多个序列进行上述4种分析序列比较可以分为五种基本情况:(1)两条长度相近序列相似性分析,找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列(5)对多个序列进行上述4种分析
第三 节 两个序列的比较 • 全局比较——基本算法 • 通过全局比对(global alignment),了解序列的相似性 • 例如, • s=ATTGCATATG;t=ATTGATATC • s=ATTGCATATG • t=ATTG – ATATC
记分系统的引入与比对打分 匹配=1 空配=-2 错配=-1 对s, t进行相似性比较,得到的最大记分值,称为2序列的相似性,表示为sim(s, t)=max{score i} s=ATTGCATATG; s=ATTGCATATG t=ATTG – ATATC; t=ATTG ATATC- 8+(-2)+(-1)=5 4+ (-2) + (-1) × 5 =-1
2. 局部比较 序列s和t的局部比较是通过局部比对(local alignment)实现的,是s和t子串之间的比对。 例如, s=AATTGCATATG;t=ATTGT,对它们进行局部相似性比较,表示 s(2,3,4,5)=t(1,2,3,4)
3. 半全局部比较 序列s和t的比对,序列长度相差较大 例如, s=AATTGCATATG;t=ATTGT,对它们进行全局相似性比较,表示 s=AATTGCATATG; s=AATTGCATATG t= - ATTGT - - - - - ; t= A- TTG - - T - - - 半全局比对的核心是2个序列前缀与后缀
第四 节 相似性和距离 • 相似性 • 相似性的度量是基于比对,2个序列的相似性可以由sim(s, t)=max{score i} • 距离 • 对任何的一个串实施一系列的变换后,可以转化为另一个串 • s→ t; t=AGCTT; s=TTA • TTA → - - TTA → AGTTA→ AGCTA→AGCTT
变换的操作: 1 字符的替换 2 空格插入和删除 给予每个变换特定的开销(cost) dist(s,t)=min{cost i}
扩展的编辑操作 ACCGACAATATGCATA ACTGACAATATGGATA ACCGACAATATGCATA ATAGGTATAACAGTCA 第二条序列头尾颠倒 可以通过基本操作实现
反向互补序列 RNA发夹式二级结构
第五节 通过点矩阵进行序列比较“矩阵作图法” 或 “对角线作图”
→ 序列1 → 实 例 →序列2 →
→ 序列1 → 自我比较 →序列1 →
滑动窗口技术 • 两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。
滑动窗口技术 • 使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。 • 假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记 • 基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。
(a) (b) (a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。
第六节 DNA片断的组装 • 生物学背景 • DNA测序技术的发展 • 片断的组装(fragment assembly) • 片断(fragment)的产生
理想情况 例如 ATTGGGCA; CGATT; TGGGCAGA 组装 - - ATTGGGCA - - CGATT - - - - - - - - - - - TGGGCAGA CGATTGGGCAGA 表决序列
复杂情况 碱基识别错误 序列方向未知 重复序列 缺乏覆盖 序列污染
复杂情况的组装模型 最短公共超串(shortest common superstring) 重构(reconstruction) 多连叠(multicontig)
第七节 DNA序列分析 DNA序列分析 ——基因序列 ——基因表达调控信息 寻找基因牵涉到两个方面的工作 : • 识别与基因相关的特殊序列信号 • 预测基因的编码区域 • 结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。
Ⅰ DNA序列分析步骤和分析结果评价 • 在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。 • 存放这些信息的DNA片段称为功能位点 • 如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。
一个基本的DNA序列分析方案 发现重复元素 数据库搜索 分析功能位点 序列组成统计分析 综合分析
功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。 • 两个集合: 训练集(training set) • 用于建立完成识别任务的数学模型。 测试集或控制集(control set) • 用于检验所建模型的正确性。 • 用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。
收集已知的功能序列和非功能序列实例 (这些序列之间是非相关的 ) 训练集 (training set) 测试集或控制集 (control set) 建立完成识别任务的模型 检验所建模型的正确性 对预测模型进行训练, 使之通过学习后具有 正确处理和辨别能力。 • 进行“功能”与“非功能”的 • 判断,根据判断结果计算 • 模识别的准确性。 识别“功能序列”和“非功能序列”的过程
Sn ——敏感性 • Sp ——特异性 • Tp是正确识别的功能序列数, • Tn为正确识别的非功能序列数, • Fn是被错误识别为非功能序列的功能序列数, • Fp是被错误识别为功能序列的非功能序列数。
敏感性和特异性的权衡 • 对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。 • 如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性; • 相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。 • 对于敏感性和特异性需要进行权衡,给出综合评价指标。
功能位点分析 • 功能位点(functional site) • 与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。 • 功能位点又称为功能序列(functional sequence)、序列模式(motif)、信号(signal)等。 • 核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。 • 在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。
基因组序列中若干个相邻的功能位点组合形成功能区域(functional region)。 • 功能位点分析的任务 • 发现功能位点特征 • 识别功能位点
A 利用共有序列搜索功能位点 • 共有序列(common consensus)又称一致性片段 • 共有序列是关于功能位点特征的描述,它描述了功能位点每个位置上核苷酸进化的保守性 例如: NTATN • 利用共有序列进行功能位点分析牵涉到两个方面的问题, • 如何构造共有序列 • 如何利用共有序列在给定的核酸序列上搜索寻找功能位点,并计算所找到的功能位点的可靠性
共有序列具有以下几个方面的特征: (1)共有序列中既有保守的位置,也有可变的位置; (2)任何位置上的核苷酸可以用15种类型之一来表示: