1 / 70

Analysis of microarray data

Analysis of microarray data. Cui Qinghua 2009-03-06. Outline. Introduction Databases Detection of differentially expressed genes Clustering Classification Principal component analysis (PCA) Pathway and Ontology analysis Survival analysis. Introduction.

qiana
Download Presentation

Analysis of microarray data

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analysis of microarraydata Cui Qinghua 2009-03-06

  2. Outline • Introduction • Databases • Detection of differentially expressed genes • Clustering • Classification • Principal component analysis (PCA) • Pathway and Ontology analysis • Survival analysis

  3. Introduction • 我只强调一点,基因芯片数值反应的是mRNA的丰度(abundancy),因此,可以在一定程度上反应基因的表达水平。

  4. Microarray总流程 Biological Question Data Analysis & Modelling Sample Preparation MicroarrayDetection Microarray Reaction Taken from Schena & Davis

  5. 应用 • 差异表达基因检测(不同组织、不同时间、不同条件等) • 基因联合调控 • 疾病诊断 • 基因功能鉴定 • 药物筛选和新药开发

  6. 应用:以人类疾病为例 • 神经系统:肿瘤、aging, CNS炎症、多发性硬化、老年痴呆、精神分裂症、癫痫、帕金森病等; • 呼吸系统:肺癌、支气管哮喘、原发性肺动脉高压、肺间质纤维化、结节病等; • 消化系统:肿瘤,肠炎等 • 其他:造血系统疾病、传染性疾病、生殖系统疾病以及泌尿系统疾病等

  7. s1 s2 s3• • • • • • • • sj • • • • • sM g1 g2 • • • • gi • • • • • gN gene profile Gi Mi,j array profile Aj Microarray data matrix

  8. Databases-三大基因表达数据库 • 美国国立生物信息中心NCBI的Gene Expression Omnibus数据库 (GEO, http://www.ncbi.nlm.nih.gov/geo/)

  9. Databases-三大基因表达数据库 • 欧洲生物信息学研究所EBI的ArrayExpress数据库 (http://www.ebi.ac.uk/microarray-as/ae/)

  10. Databases-三大基因表达数据库 • 美国斯坦福大学的SMD数据库 (http://genome-www5.stanford.edu/)

  11. 数据预处理 • 数据缺失 • 原因 • 图像受到污染 • 图像分辨率不足 • 片上灰尘或刮痕 • 缺失数据的处理方法 • 舍弃该数据(同时丢掉了有用信息!) • 再做一次实验 (太昂贵了!) • 用某个数取代,比如样本均值 • K-nearest neighbors估计 • 奇异值分解(SVD) 估计 • 标准化 • Log变换 • 线性回归 • 伸缩+平移

  12. Detection of differentially expressed genes • 两类样本 • t test • Wilcoxon test • …… • 多类样本 • anova • …… • 多重检验校正 • Bonferoni • FDR

  13. 软件-SAM • Significance Analysis of Microarrays (Tusher et al. 2001) • 需要R软件包 • Excel嵌入式函数

  14. Clustering

  15. Clustering三要素 • 相似性度量 • Pearson’s correlation • Spearman’s correlation • Euclidian distance • City block distance • 聚类准则 • 聚类算法

  16. 聚类算法 • 层次聚类:假设有N个样本,第一级,每个样本为1类,即有N类,依次合并,直到样本只有一类。 • 非层次聚类 • K-means • Fuzzy c-means • 自组织映射 • 。。。。。。

  17. Clustering软件-Cluster • Michael Eisen et al. • 步骤: • 打开软件 • 装入数据(格式解释) • 选择聚类办法 • 设置参数 • 运行

  18. 层次聚类法的基本步骤 • 层次聚类法的基本步骤 • 对数据进行变换; • 定义样本间的距离(如欧氏距离)、类别之间的距离(如最短距离); • 首先将t个样本各自视为一类:得到初始的分类G(1) (含有t类),计算t个样本两两之间的距离,它们等价于初始的类间距离,得到初始的距离矩阵D(1) ; • 将距离最近的两类合并为一新类,得到新的分类G(2)(含有t-1类),并计算新类与其它类的类间距离,得到新的类间距离矩阵D(2) ,再按照最小距离准则并类,得到G(3)(含有t-2类)、D(3),… 。直到所有样本都并成一类 ; • 画出谱系聚类图,决定分类的个数及各类的成员。

  19. X1 X6 X2 X4 X4 X5 X3 X2 X5 X1 X3 X6

  20. 层次聚类法举例 已知:根据5种灵长类动物朊粒蛋白的氨基酸序列比较,得到它们之间的距离矩阵(经过数据变换处理)。 X(1):Gibbon(长臂猿); X(2):Symphalangus; X(3) :Human(人); X(4) :Gorilla(大猩猩); X(5) :Chimpanzee(黑猩猩) 构造: 样本间距离——欧氏距离; 类间距离——最短距离;

  21. 步骤 1 5个物种各自构成1类,得到5类,有: 初始分类G (1)={X(i)}(i=1, 2, 3, 4, 5) 初始类别数目m=5 初始类间距离矩阵D(1) D(1)

  22. 步骤2 由D(1)知,合并X(1)和X(2)为一新类C(4)={X(1), X(2)},有: 新的G (2)={X(3) ,X(4) ,X(5) ,C(4)} 新的类别数目m=4 新的类间距离矩阵D(2) D(2)

  23. 步骤3 由D(2)知,合并X(3)和X(4)为一新类C(3)={X(3), X(4)},有: 新的G (3)={X(5) ,C(4) ,C(3)} 新的类别数目m=3 新的类间距离矩阵D(3) D(3)

  24. 步骤4 由D(3)知,合并X(5)和C(3)为一新类C(2)={X(5), C(3)},有: 新的G (4)={C(4) ,C(2)} 新的类别数目m=2 新的类间距离矩阵D(4) D(4)

  25. 步骤5 由D(4)知,最后合并C(4)和C(2)为一新类C(1)={C(4), C(2)},有: 新的G (5)={C(4) ,C(2)} 新的类别数目m=1 新的类间距离矩阵D(5) D(5)

  26. 步骤6 画谱系聚类图 Gibbon X(1) X(2) Symphalangus Human X(3) Gorilla X(4) X(5) Chimpanzee 0 1 2 3

  27. 影响聚类结果的主要因素 • 样本间距离的定义dij • 类间距离的定义Dij

  28. 层次聚类linkage方法 • Linkage方法直接影响了聚类结果,它取决于类间距离如何定义。关于类间距离有如下几种: • Centroid linkage:几何中心距离。仅适用于欧氏距离。The distance between two clusters is the Euclidean distance between their centroids • Single linkage:最短距离 • Complete linkage:最长距离 • Average linkage:平均距离

  29. 用Gp和Gq表示两个类,它们所包含的样本数目分别为tp和tq,类Gp和Gq之间的距离用Dpq表示。用Gp和Gq表示两个类,它们所包含的样本数目分别为tp和tq,类Gp和Gq之间的距离用Dpq表示。 centroid linkage 几何中心距离 定义:用Gp和Gq两类几何中心的距离为两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s p, q)的类间距离(几何中心距离) Drs ,有:

  30. single linkage 最短距离 定义: Gp和Gq中最邻近的两个样本的距离为这两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s p, q)的类间距离(最短距离) Drs ,有:

  31. complete linkage 最长距离 定义: Gp和Gq中相距最远的两个样本的距离为这两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s p, q)的类间距离(最长距离) Drs ,有:

  32. average linkage 类平均距离 定义:用Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s p, q)的类间距离(类平均距离) Drs ,有:

  33. 类别数目的确定 X(1) X(2) X(3) X(4) X(5) 0 1 2 Dcr1 Dcr2 Dcr3 Dcr4 Dcr5

  34. 层次聚类结果的可视化-TreeView

  35. 非层次聚类 分类是否 合理? 是 选取 聚类种子点 (Cluster seeds) 否 初始分类 最终分类 修改分类

  36. Microarray数据模式分类 X Y F(X) 训练样本 预处理 特征提取 机器学习 决策 新样本 分类器 决策

  37. G1 x2 L: c1x1+c2x2-c=0 G2 x1

  38. 模式分类算法 • 线性分类器 • 神经网络 • 最近邻 • 贝叶斯分类器 • 隐马尔科夫模型分类器 • 决策树 • 支持向量机

  39. Principal component analysis (PCA, 主成分分析) • 基因芯片数据维数高,难以可视化 • 基因芯片数据噪音比较强 • PCA主要的应用 • 降维 • 去噪

  40. PCA 数学基础:统计和线性代数 • 均值(mean): • 标准差(standard deviation): • 方差

  41. PCA 数学基础:统计和线性代数 • 协方差(covariance):以上测量都是针对一维变量的,然而,实际数据很多都包含2维以上的数据,统计分析的一个重要目标是检查这些维之间是否有某种关系。

  42. PCA 数学基础:统计和线性代数 • 协方差(covariance)例子:样本:一个班里抽取12个学生。2维:一是每个学生的期末成绩,另一是每个学生花费在学习上的时间

  43. PCA 数学基础:统计和线性代数 • 协方差距阵(covariance matrix) • 矩阵代数(线性代数):这方面知识不介绍了,感兴趣的同学可以课下自学。

  44. PCA:举例说明

  45. PCA软件 • Too many! • Excel • SPSS • Matlab • R • Cluster

  46. Pathway and Ontology analysis • Gene set enrichment analysis (GSEA)

More Related