710 likes | 942 Views
生物信息学在肿瘤研究中的应用. 肿瘤生物信息学平台功能简介及应用实例. 张 新 宇. 中国医科院肿瘤医院 / 肿瘤研究所 中心实验室 生物信息学. 生物信息学的概念:. A. 生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。. B. 简言之,生物信息学就是运用计算机技术,处理、分析生物学数据,以揭示生物学数据背后蕴藏的意义。. 生物信息学研究的要素. 计算机(服务器 / 工作站)及操作系统 专业人员 专业软件 Internet 网络及生物学数据库.
E N D
生物信息学在肿瘤研究中的应用 肿瘤生物信息学平台功能简介及应用实例 张 新 宇 中国医科院肿瘤医院/肿瘤研究所 中心实验室 生物信息学
生物信息学的概念: A. 生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 B. 简言之,生物信息学就是运用计算机技术,处理、分析生物学数据,以揭示生物学数据背后蕴藏的意义。
生物信息学研究的要素 • 计算机(服务器/工作站)及操作系统 • 专业人员 • 专业软件 • Internet网络及生物学数据库
生物信息学研究分类 算法开发 生物学研究应用 Blast Blast
生物信息学和肿瘤研究的关系 How is tumor generated……?
1996, 97国际象棋人机大战 被誉为“人类智力极限”的特级大师,卡斯帕罗夫 VS IBM深蓝
肿瘤生物信息学平台简介 • 数据库平台 • 自主开发的综合分析体系 • 自主开发的其他独立功能软件 • 其他引进并安装调试好的软件包 • 平台的产生及发展
数据库平台:(基于Linux系统的MySQL数据库系统) 1) Reference, Locus Link, Unigene, Mapview及相关GenBank数据库。 2) Gene Ontology 数据库, 从细胞定位,基因功能,信号通路三个角度提供对各种基因的功能及所在信号通路的注释。
数据库平台(续) 3) UCSC Human Genome 数据库 (Golden Path)。 4) 格式化的Blast数据库 (nt, nr, human_est, htg, swissprot, yeast, mouse_est …)。 5) 实验室原始数据及分析结果数据库。(加密保护)
Computational Velocity: Doubled after 18 months;DNA Data Quantity: Doubled after 14 months;
肿瘤生物信息学平台简介 • 数据库平台 • 自主开发的综合分析体系 • 自主开发的其他独立功能软件 • 其他引进并安装调试好的软件包 • 平台的产生及发展
自主开发的综合分析体系 • cDNA, mRNA及EST序列的高通量综合分析平台 • 基因芯片数据分析平台 • 信号通路 (Gene-gene interaction)分析平台 注:每个平台都包含几个部分,每部分又是一个可独立运行的功能体系
cDNA, mRNA及EST序列的高通量综合分析平台 a) 序列格式化,包括去除载体,屏蔽简单重复序列,计算核酸组成及长度,以Fasta格式输出。 b) 比对Reference mRNA序列及Unigene序列,找出已知基因,并进行聚类分析。 c) 对新基因序列进一步与人类染色体比对,筛选出可靠的新基因序列,排除错误序列。
cDNA, mRNA及EST序列的高通量综合分析平台 (续) d) 新EST序列延伸,全长cDNA序列电子克隆及功能结构域分析。 e) 点突变或者SNP分析 f) 制作基因表达图谱 (PDF格式)
背景知识: Definition of EST EST (Expressed Sequence Tag): 从cDNA 库随机挑选出一个克隆来自动测序,长度一般为500bp。 ESTs offer a rapid and inexpensive route to gene discovery, reveal expression and regulation data (Vasmatis, et al,1998), highlight gene sequence diversity and splicing (Wolfberg and Landsman, 1997), and may identify more than half of known human genes (Hillier, et al, 1996).
Sequencing Result Procedures MaskVector and Format Blast to Reference mRNA DB Reference DB None-hit EST Blast to Human EST DB Human EST DB None-hit EST Screened Known Genes Cluster ESTs by Gene Blast to Human Genome Map to Human Genome Gene Expression Map New Genes Garbage ESTs Point Mutation/SNP Analysis In silico EST Elongation
原始输入序列 Original sequence Database
已知基因聚类分析结果 Cluster Result Database
新基因EST New Gene (EST) Database
新基因EST电子延伸结果 Elongated EST >IDNo2_rlcrt0-000159.fas;Length=2540 ......AGCGGGTCCCGCCTCCCAGCGACTCTCGGCAGTGCCGGAGTCGGGTGGGTTGGCGGCTATAAAGCTGGTAGCGAAGGGGAGGCGCCGCGGACTGTCCTAGGTACACTTTTCTCATAAAGTTTAGCCTACAGAAACTATCGCCACCCAAATTAAACATCACCCAAGCTAATATTCTTTCCTCCTTCTAAAGATGAGCTAGCGAAACTTTTTATAGGTTGTCCCTTTAATGCAGCTTTTTAGAATAAACATTTTTACATTTTTTCTTAAAAGAATTATTTTTTGAAGTCTGAGGAAAAATCCGCTTGCCTAGTGAATTTGGCACACACAGAGTAACAACAAATCAAACTTTAAGCTAGCAACCAACACACAAAATAAGCATGCAAGGAATAGAATAAGTTTTATATGGATAAGGTATTTTAGCCAACTCCACTTATAAGGTATTACAAAATCTCTATATNGTTTTGAAGCTATGTGTCGCAGTTTAAAGTTACTTTTAACAATAATACGTATATTTACAATTGACTTAAAAAACTATTTTCAAGGAAGTTAGAAACCTATGGCACACCAACGCATCTTCTGGAAAATGAAGACGATACAATGTCATGTGGCAAGTTTCAATATATGAAGGACTAGACCAGTG..............
Using Reference mRNA Database Blast Output to Search Mutation/SNP
点突变/SNP分析结果 Mutations Found from Blast Output Analysis
点突变/SNP分析结果 (续) Deletion (ClustalX 1.82)
点突变/SNP分析结果 Insertion (ClustalW 1.82)
点突变/SNP分析结果 (续) Here “-” means insertion
Further Analysis From SNP to Haplotype
基因表达图谱 6 SSH Libraries Gene Expresstion Map to Human Genomes(1~22+X)
Expression level of genes in SSH libraries Different Colors correspond to different libraries
Is there a LOH? Expressed in two down-regulated libraries
LOH map vs. SSH map Lung Cancer Related LOH Lung Cancer Related SSH
基因芯片数据分析平台 a) 对raw data进行标准化处理,并确定thredshold值(低于该值表示基因不表达,没有杂交信号) b) 结合R/S++,SAS通过生物统计学手段筛选具有显著性差异表达的基因 c) 进一步的芯片分析手段不一而足,可结合具体分析目标进行具体分析。已经做过的分析有:建立从array到全基因组转录图谱,基因表达图谱;聚类分析(hierarchical, SOM and K-means clustering); 结合Gene Ontology, Biocarta, KEGG数据库进行相关pathway分析等
背景知识: Normalization
背景知识: PathWay Analysis
分析实例 Genome-wide Gene Expression Map and Analysis of Non-Small Cell Lung Cancer Based on Microarray
Original Array Data • Chip: Human U95A oligonucleotide probe arrays (Affymetrix, SantaClara, CA) 12,600 cDNA clone • Sample: • Squamous cell lung carcinomas 21 • Adenocarcinomas 127 • Normal Lung 17 • Array data (normalized)
Analysis Procedures • Finding genes from 12,600 cDNA clone Get 7932 genes • Flagging the values lower than threshold value About half values keeped • Doing T-test with SAS/R for each gene • Hierarchical Clustering Divide into two parts: up-regulated and down-regulated • Construction of Gene Expression Map and Transcriptome Map
肺鳞癌转录图谱 (3号染色体) 肺鳞癌基因表达图谱(3号染色体)
Analysis Procedures (Cont.) • High-resolution detection of differentially expressed chromosomal regions in NSCLC was obtained by using moving-median method • Screening of important NSCLC-related gene
肺鳞癌基因异常表达区域分析结果 Results • 75% (24 of 32) of our results were consistent with the previous studies. And the counterparts in other reports, normally with larger sizes, were narrowed down and many specific genes involved in these regions were identified. • 4 new aberrant regions in squamous carcinoma, 2q31-32, 12q23-24, 14q22-q24 and Xp11.4-p11.23, were discovered.
信号通路 (Gene-gene Interaction) 分析平台 a) 选择关键词,从 GO数据库中寻找相关基因,比如 extracellular表示为分泌蛋白 b) 通过GO, BioCarta和Kegg信号通路数据分析给定基因所属的信号通路,功能分类等 c) 比较多组基因按功能,通路分组在统计学上的差异,从而得到各组基因的功能差异 d) 新信号通路的分析(正在开发…
背景知识: Gene Ontology Pathway Network 特点:DAG (非循环), 可用数据库表达
背景知识: BioCarta Cell Cycle Pathway 特点:以调控通路为主
背景知识: KEGG 酮体代谢 Pathway 特点:以代谢通路为主
分析给定基因所属的信号通路 分析实例 GO:0003673->biological_process->physiological processes->cell growth and/or maintenance(D10S170)->cell proliferation(FTH1,AKR1C3,C20orf1)->cell cycle(AHR,BUB1,STAG2)->DNA replication and chromosome cycle->chromosome segregation(STAG2)->mitotic chromosome segregation
比较多组基因按功能分组在统计学上的差异,从而得到各组基因的功能差异比较多组基因按功能分组在统计学上的差异,从而得到各组基因的功能差异 分析实例 26 N: 15 219 T: 78 429 nucleotide binding 32 N: 28 396 T: 120 728 nucleic acid binding 2 N: 1 31 T: 21 91 structural constituent of ribosome 47 N: 0 0 T: 1 7 apoptosis inhibitor activity 38 N: 0 0 T: 10 50 transcription factor activity 37 N: 1 13 T: 1 13 enzyme inhibitor activity 46 N: 6 46 T: 6 46 metal ion binding