1 / 60

杨建华

生物信息学及其在医学中的应用. 杨建华. 2010/9/21. yangjh7@mail.sysu.edu.cn. 课程安排. 1 、时间:每周二晚 12 ~ 14 节( 18:05-20:40 ) 教室:艺 203 教室 学时:每周 3 学时(总计 12 3=36 学时 ) 2 、学分: 2 学分 3 、成绩考核方式: 研究论文 开卷考试 4 、 E-mail: yangjh7@mail.sysu.edu.cn Tel:8411 2517(office) (办公室地址:生命科学学院北院 407 室)

lyn
Download Presentation

杨建华

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 生物信息学及其在医学中的应用 杨建华 2010/9/21 yangjh7@mail.sysu.edu.cn

  2. 课程安排 1、时间:每周二晚12~14节(18:05-20:40) 教室:艺203教室 学时:每周3学时(总计123=36学时) 2、学分:2学分 3、成绩考核方式: 研究论文 开卷考试 4、E-mail: yangjh7@mail.sysu.edu.cn Tel:8411 2517(office) (办公室地址:生命科学学院北院407室) 5、课程大纲和讲义可在课程网站下载。 ( http://deepbase.sysu.edu.cn/compBio/index.html)

  3. 参考资料 • Durbin等, Biological sequence analysis(英文原版), 清华大学出版社,2002 • Mount,Bioinformatics—Sequence and Genome Analysis,科学出版社,2002年(中文版由钟杨等译、高等教育出版社2003年出版) • 生物信息学相关期刊

  4. 利用工具 解决问题 编写代码 理论知识 + 编程实践 课程目标 掌握分析技术 1) 机器学习 监督和无监督的机器学习和分类 2) 统计方法 贝叶斯原理(Bayes’ Law),隐马尔可夫模型(HMM) 3) 高通量数据分析技术 基因芯片数据和新一代测序数据的分析技术 4) 软件和数据库的原理和开发 5) 生物医药数据可视化 掌握后基因组时代的“捞鱼”技术 提出问题

  5. 课程内容

  6. 生物信息学(Bioinformatics)的来源 谁是生物信息学的提出者??? Dr. Hwa A. Lim (林华安)1987年提出 “Bio-informatique” → “Bioinformatics” • Prof. Dr Paulien Hogeweg Bioinformatics group, Utrecht University

  7. 生物信息学/计算生物学 美国国家卫生研究院(NIH)的定义: Bioinformatics 为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、归档、分析与可视化。 Computational Biology 开发和应用数据分析、理论方法、数学模型和计算机仿真技术,用于生物学、行为学和社会群体系统的研究。 课程网站:http://deepbase.sysu.edu.cn/compBio/index.html

  8. 生物信息学 从人类基因组计划(HGP), ENCODE 计划 和千人基因组计划说起

  9. 人类基因组计划 三大科学计划 曼哈顿原子弹计划 阿波罗登月计划

  10. 人类基因组计划 为什么要开展人类基因组计划? 1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义 1985 Dulbecco在《Science》撰文 “肿瘤研究的转折点:人 类基因组的测序” 有助于认识自身、掌握生老病死规律、 疾病的诊断和治疗、了解生命的起源。

  11. 人类基因组计划 (HGP,Human Genome Project) 目标:整体上破解人类遗传信息的奥秘 人类基因组计划目标 Human Genome = three billion (3*10^9) base pairs

  12. 人类基因组计划-DNA 测序技术 • Sanger测序法 双脱氧链终止法 新的测序技术 • 焦磷酸测序法(454,Solexa,Solid), 单分子测序 • 新的整合技术 Sanger测序法

  13. 人类基因组计划幕后英雄 Jim Kent. GigAssembler “黄金之路”(The Golden Path) Kent & Haussler, Genome Res. 2001. 11: 1541-1548 人类基因组序列的组装 为什么需要组装呢?

  14. 人类基因组序列的组装和注释 基因(gene) 生物信息学 分析技术 组装 DNA测序技术 人类基因组 转座元件 进化保守性

  15. 基因的鉴定 Human Genome = three billion (3*10^9) base pairs: 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位 编码蛋白质或RNA等具有特定功能产物的遗传信息的基本单位

  16. 0.05 0.9 0.95 0.1 Loaded Fair 22222222222111111111111111111111111111111111111111 11111111111111111111111111112222222222222222222222 基因的鉴定-隐马尔可夫模型 例子:偶尔作弊的赌场 21621665666352321264622533314315136163516312314636 51335613554632416254244212326366645622466146342646 隐状态:那个骰子

  17. 基因的鉴定 跟线虫的基因数差不多 暗示着。。。。。。

  18. 人类基因组序列的显示 Visualization

  19. 2000.6.26公共领域和Celera公司同时宣布完成人类基因组工作草图2000.6.26公共领域和Celera公司同时宣布完成人类基因组工作草图 2001.2.15 《Nature》刊文发表国际公共领域结果 2001.2.16 《Science》刊文发表Celera公司及其合作者结果 2001年2月15日《Nature》封面 2001年2月16日《Science》封面 HGC Celera

  20. 基因组学研究 2003年人类基因组计划的完成仅仅标志着人类向着利用基因信息诊断、 治疗和预防疾病的目标迈出了重要的第一步。

  21. 生物学的挑战 人类基因组大小:约30亿个碱基对

  22. Encyclopedia of DNA Elements (ENCODE) 计划 DNA元件百科全书计划 人类基因组计划的延伸

  23. 98.5% “Junk DNA”? ENCODE计划目标 2004年Science的10大突破排名第4 [Human Molecular Genetics, 3rd Edition] DNA元件百科全书计划 (ENCODE) 目标:对人类基因组功能元件进行全面的鉴定和分析

  24. gene ENCODE 计划研究规划 • ENCODE计划主要分为三个阶段进行 : • ①试点研究阶段(ENCODE pilot project) ②技术开发阶段 • ③实际生产阶段

  25. ENCODE试点研究计划 (ENCODE pilot project) 目标:对人类基因组1%的序列功能元件进行全面的鉴定和分析

  26. 高通量技术-芯片技术 基因的异常表达 肿瘤,疾病等相关 基因芯片的应用 • 肿瘤基因表达谱差异研究 • 基因突变 • 基因多态性分析 • 遗传病产前诊断等 生物信息学技术 大规模集成的固相杂交

  27. 选择技术, 设计实验 准备样品, 杂交到芯片上 可视化 显示数据 评价数据的质量 移除低质量 归一化 数据 寻找差异 表达的基因 构建和应 用分类器 解析结果 高通量技术-芯片数据分析

  28. ENCODE试点研究计划-比较基因组学 开发比较基 因组学软件 是什么? Junk DNA

  29. ENCODE Region: • 93% 是转录的 • >74% 转录能被两种不同方法检测 暗示着…… ENCODE试点研究计划-转录组 高通量芯片技术 生物信息技术 整合分析 测序的表达数据

  30. ENCODE试点研究计划-转录组注释 Hope or Hype?

  31. gene ENCODE试点研究计划-转录调控 高通量ChIP技术 蛋白结合位点的 peak整合分析 转录组数据 • ENCODE Region: • 组蛋白的修饰相邻与转录起始位点 • DNaseI 超敏位点有特异的组蛋白修饰模式 暗示……

  32. ENCODE试点研究计划-非编码RNA 支持向量机 概率罚分模型 非编码RNA (ncRNA) 一类以RNA形式行使功能的非蛋白编码的RNA 功能 在细胞的生长、分化和死亡以及癌症 和肿瘤的发生和发展等方面发挥重要作用。

  33. ENCODE试点研究计划-非编码RNA 最低自由能(MFE) 进化保守 (1)支持向量机(RNAz) 如何选取向量特征? (2)随机上下文无关文法(evoFold)

  34. ModENCODE Project 模式生物DNA元件百科全书计划 为什么要开展模式生物ENCODE计划?

  35. ENCODE试点研究计划-研究论文 28篇相关的文章

  36. 1000 Human Genomes Project 千人基因组计划 (A Deep Catalog of Human Genetic Variation)

  37. 千人基因组计划的目标 海量的生物学 数据 新一代高通 量测序技术 生物信息学 分析技术 遗传变异 任何两个人的基因有99%多是相同 解释为什么有些人会得某种疾病 目标:构建最全面的人类遗传变异图

  38. 为什么需要新一代高通量测序技术 Next-generation sequencing (NGS), Next is Now The Human Genome Project (HGP) : (i) Time: 1990-2003 (expect: 15 years) (ii) Cost: the $3 billion project (iii) Output: 96 sequence reads/run Goals for NGS : (i) How to significantly shorten the time? (ii) How to significantly reduce the costs? (iii) millions of sequence reads in parallel Sanger Sequencing High-throughput sequencing (HTS) Shendure & Ji, 2008;Nature biotechnology, 26, 1135-1145

  39. 新一代高通量测序技术 20um 29um One Fragment = One Bead Jonathan M. Rothberg 1. the inventor of massively parallel sequencing One Bead = One Read 2. the founder of 454 Life Sciences CCD(电荷耦合元件, Nobel prize,2009) 400-600 million bases/run >1 million reads in excess of 400 bp ~$60/Mb Mardis. 2008; Annu. Rev. Genomics Hum. Genet. 9:387–402 One Fragment = One Bead = One Read http://www.454.com/ Charge-coupled Device (CCD)

  40. 新一代高通量测序技术

  41. data-analysis capabilities NGS data a growing gap 高通量测序技术带来的挑战和机遇 Company: Bioinformatics bottleneck threatens to limit instrument sales. Storage How storage new NGS data Mapping ultra-fast program for mapping NGS reads? Annotation NGS data derived from what know genomic elements ? Discovery RNA-seq, CNV-seq, SNP, ChIP-seq Visualization human eyes are always better McPherson, et al. 2009; Nature Methods., 6:S2-S5

  42. 压缩和二进制法 索引表 + BAM格式 内存:~9M 索引 查询速度:几秒 高通量测序技术-存储 最小的空间存储 最快的速度查询 + Binary Alignment/Map (BAM)

  43. 哈希索引测序序列 哈希索引基因组 • BWT索引基因组 解决方法 高通量测序技术-比对 最快的速度 最小的内存 + Burrows-Wheeler transform full-text minute-space (FM) index

  44. 高通量测序技术-可视化比对数据 可视化 人类的眼睛是最灵敏的。 Customer experiments 回答各种各样的生物学问题 • 便携性( portability) 能用于多个操作系统平台(如:Linux,Mac 和 Windows) • 规模可伸缩性( scalability ) 用有限的内存显示巨大的比对数据( 如:10~100GB ) • 远程可操作性( efficiency over network) 在台式机上浏览在服务器上巨大的数据

  45. rnaNGS: discovering small and long ncRNAs from pooled NGS data rnaNGS: 软件界面

  46. deepView 可视化浏览千人基因组计划数据 (a)超快速: 在<1秒, 装载和浏览不限大小的BAM数据和人类基因组序列区域(>3G) (b)占用内存小:浏览人类基因组序列区域和>900兆BAM数据,只需25兆内存 (c)发现SNP, InDel(insert or delete)位点

  47. deepView 各式各样的功能 (c)隐藏和显示Track (d)改变Track颜色 (a)支持各式各样的输入格式 (b)改变和移动Track的位置 (f)改变Track设置 (e)改变背景颜色

  48. 实验技术 生物信息学的应用 Sanger 测序法 基因组整合、注释等 人类基因组计划 ENCODE计划 芯片技术 基因鉴定、表达和调控网络 新一代测序技术 整合、比对、可视化和变异 千人基因组计划 课程小结

  49. 生物信息学的应用 随着实验数据和可利用信息急剧增加,信息的管理和分析成为一项重要的工作

  50. 生物信息学的研究意义 • 认识生物本质 • 了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系 • 改变生物学的研究方式 • 改变传统研究方式,引进现代信息学方法 • 在医学上的重要意义 • 为疾病的诊断和治疗提供依据 • 为设计新药提供依据 生物信息学将是21世纪生物学的核心之一

More Related