240 likes | 371 Views
计算机科学与生命科学( 12 ) 生物信息学基础 2013 年秋季学期通选课程 上课时间:周一 18:30 点 上课地点:软件园 4 区 502d 主讲人:魏天迪 讲义网址: http://www.mbtech.sdu.edu.cn/biocomp/. 二元预测的灵敏度和选择度. 某地在一段时期之内发生了 5 次地震和 5 次雷阵雨。有两台地震探测仪 A 和 B 。 A 探测到了 7 次地震,其中包括 5 次真正的地震和 2 次雷阵雨; B 探测到了 3 次地震, 3 次都是真正的地震。
E N D
计算机科学与生命科学(12) 生物信息学基础 2013年秋季学期通选课程 上课时间:周一 18:30点 上课地点:软件园4区502d 主讲人:魏天迪 讲义网址:http://www.mbtech.sdu.edu.cn/biocomp/
二元预测的灵敏度和选择度 某地在一段时期之内发生了5次地震和5次雷阵雨。有两台地震探测仪A和B。A探测到了7次地震,其中包括5次真正的地震和2次雷阵雨;B探测到了3次地震,3次都是真正的地震。 A: true positive (tp) = 5; true negative (tn) = 3; false positive (fp) = 2; false negetive (fn) = 0. B: true positive (tp) = 3; true negative (tn) = 5; false positive (fp) = 0; false negetive (fn) = 2. 灵敏度:Sensitivity = tp / (tp + fn) 选择度:Specificity = tn / (tn + fp) A: Sensitivity = 5/(5+0) = 100%; Specificity = 3/(3+2) = 60% B: Sensitivity = 3/(3+2) = 60%; Specificity = 5/(5+0) = 100% A: “宁可选错也不漏选” B: “宁可不选也不选错” 灵敏度和选择度二者之间往往会有博弈,想做到“既不放过一个坏人也不冤枉一个好人”是很不容易的。
序列基序预测 序列基序(Motif)是一个保守的分布广泛的具有一定生物学功能的核酸或蛋白质片段。
富亮氨酸重复序列(LRR)的预测 富亮氨酸重复序列(LRR)广泛存在于病毒、原核生物与真核生物的上万个已知的蛋白质中,往往参与蛋白质与蛋白质或(非蛋白质)的相互作用,在细胞黏连、信号传导、血小板凝聚、细胞外基质聚集、神经系统发育、RNA加工、病毒入侵及免疫应答等过程中起到了关键性。LRR具有一个特征性序列模板LxxLxLxxNxL。
富亮氨酸重复序列(LRR)的预测 • http://tollml.lrz.de • 从目前已知的所有Toll样受体蛋白质序列(>2500)中半手动的精确划分出了5万多个单个的LRRs。 • 作为训练组,从中构建出一个统计学模型,来详细描述LRR的序列特征。 • 位点特异性加权矩阵(Position-Specific Weight Matrix)。
Position-Specific Weight Matrix Position Amino acids (%)
Position-Specific Weight Matrix Position Amino acids (%) Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
Position-Specific Weight Matrix Position Amino acids (%) Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
Position-Specific Weight Matrix Position Amino acids (%) Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
Position-Specific Weight Matrix Position Amino acids (%) Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
Position-Specific Weight Matrix Position Amino acids (%) Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT …
Position-Specific Weight Matrix Position Amino acids (%) Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT … 3.800
Position-Specific Weight Matrix Position Amino acids Yes (%) cutoff Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT … 3.800 2.232 1.054 No
LRR预测 Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT … Yes 3.800 2.232 1.054 cutoff No Sensitivity / Specificity Cutoff score
LRR预测 Example: … LPTNLTVLMLLHNQLRRLPAANFTRYSQLTSLDVGFNT … Yes 3.800 2.232 1.054 Yes Yes No cutoff No Sensitivity / Specificity Cutoff score
蛋白质三维结构 蛋白质四个水平上的结构:
蛋白质三维结构测定 第一个蛋白质的3D结构是由Kendrew和Perutz于1958使用X-射线晶体衍射法测得的。 62152 X-射线晶体衍射法 Max Ferdinand Perutz (1914-2002) nobel prize 1962 John Cowdery Kendrew (1917-1997) nobel prize 1962 7929 核磁共振法
蛋白质结构数据库 Protein Data Bank (PDB) 是世界上唯一的生物大分子结构数据库。1971年由美国Brookhaven国家实验室建立。PDB所收集的生物大分子三维结构数据都是数据库用户直接提交的通过X-ray衍射或核磁共振(NMR)实验测定的,包括结构坐标数据、文献、一二级结构信息。目前PDB的维护由结构生物信息学研究合作组织(RCSB)负责管理,主要成员有Rutger大学、圣地亚哥超级计算中心(SDSC)和美国标准化研究所(NIST)。 不同的 结构拓扑 < 1300。 已知结构的 蛋白质 > 9万
蛋白质结构数据库 Protein Data Bank (PDB) 是世界上唯一的生物大分子结构数据库。1971年由美国Brookhaven国家实验室建立。PDB所收集的生物大分子三维结构数据都是数据库用户直接提交的通过X-ray衍射或核磁共振(NMR)实验测定的,包括结构坐标数据、文献、一二级结构信息。目前PDB的维护由结构生物信息学研究合作组织(RCSB)负责管理,主要成员有Rutger大学、圣地亚哥超级计算中心(SDSC)和美国标准化研究所(NIST)。 Go to: http://www.pdb.org/pdb/home/home.do 3IA3 1MSW
分子三维结构查看及分析软件 下载:http://www.ks.uiuc.edu/Research/vmd/
蛋白质二级结构预测 已知一个蛋白质的氨基酸序列,预测其二级结构。 常用软件:PSIPRED, APSSP2, NNPREDICT, PREDICTPROTEIN http://bioinf.cs.ucl.ac.uk/psipred/