130 likes | 314 Views
木本模式植物杨树的表达数据的分析. 昝艳君 2013.6.18. 一般步骤. 探针的获取. 表达数据的获取. 1 、从 Efp 表达数据获得 2 、从 popgenie 获得 3 、从 NCBI GEO 获得. 从 Efp 表达数据获得. 1 、 Poplar eFP Browser 中有两组杨树的表达数据一组属于 tissue ;另一种属于 Drought treatment 。 2 、输入基因所对应的的探针后点击 table expression 即可得到数据. 从 Popgenie 表达 数据获得. 1 、 Pop genie 包含三类数据:
E N D
木本模式植物杨树的表达数据的分析 昝艳君 2013.6.18
表达数据的获取 • 1、从Efp表达数据获得 • 2、从popgenie获得 • 3、从NCBI GEO获得
从Efp表达数据获得 • 1、 Poplar eFP Browser中有两组杨树的表达数据一组属于tissue ;另一种属于Drought treatment。 • 2、输入基因所对应的的探针后点击table expression即可得到数据
从Popgenie表达数据获得 • 1、Pop genie包含三类数据: • a. Tissue comparison • b. Leaf development • c. wood series • 2.每类有不同的实验系列,通过输入V2.2popname获得,如果所找的基因名称为POPV1.1或者V3.0则需要在AspenDB中做转换,如果转换不了则需要做Blast对应
从Efp表达数据获得 • 1、 Poplar eFP Browser中有两组杨树的表达数据一组属于tissue ;另一种属于Drought treatment。 • 2、数据检索只适合于Affymetrix探针。 • 对于一个基因有多个探针的要取中位数不是平均值
从NCBI GEO获得 1、GEO中检索目标物种拿到GSM分类号选择感兴趣的进入获得GSE号,点击下载到text格式的Rawdata 2、找到内参的探针一般为GAPDH Actin或者Toblin 3、Rawdata中对应表达量为绝对表达量,要经过内参归一化,即每个所得到的绝对表达除以对应GSM号的内参表达,然后重复之间取平均值
数据分析 • 1、绝对表达数据的相对化 • 将同一基因的所有tissue的绝对表达量取平均值,然后用平均值除各自tissue的所得值得log2去做热图 • 2、如果不取对数,不同基因间表达差异造成每个tissue的变异系数太大,无法统一色域范围
热图绘制 • Multiple Array Viewer 里File下选择load data,弹出ExpressionFileLoader窗口,其中利用Browse选择数据文件,在two-color Array 和single-color Array中选择所想要的格式(双色heat map 还是单色,一般说来如果元数据是线性表达,即没有经过LN 转换,则可以选择单色heat map,否则就选双色heat map). 选择的元数据文件应该是.txt格式,虽然最开始可以用Excel编辑,但最后存为.txt(制表符分割)格式。如果元数据文件格式正确,应在最下方Expression Table里看到文件预览,选择左上方第一个表达数据cell,单击load,在multiple array viewer 中会自动生成heat map。
热图的分析 • heat map 输出文件的调整。 • 1)每个element的大小:选择Display,set element size, custom,输入款和高的数值,直到大小和比例合适为止。相应的文字会随着每个element大小的变化而相应变化,如果文字不合适最后存成图片后可以只裁减图的部分,边上另外加文字说明组织和基因号。 • 2)分组(clustering,即相似的组织或相似的基因聚类)选择analysis, clustering ,HCL, 之后可以选择只对基因或sample进行聚类,还是双向都聚类分析。最后选OK。这时还看不到任何变化,看聚类后的结果需要双击Multiple Array Viewer左边AnalysisResults下的HCL(1),HCL tree,则可看到聚类后的结果。
谢 谢 Thank you