320 likes | 533 Views
第九章 数据挖掘与基因表达调控信息分析. 主讲人:孙 啸 制作人 :刘志华. 东南大学 吴健雄实验室. 第一节 引言. 基因表达调控是分子生物学目前研究的一个重点,基因转录水平上的调控是最重要的环节。 与基因表达调控有关的信息包括基因组 DNA 序列、转录因子、调控元件、基因表达数据等。. 数据库技术及数据挖掘技术在基因表达调控信息研究中的应用。. 第二节 生物数据挖掘和可视化. 1 、 数据挖掘 数据挖掘,即数据库中的知识发现,是一个从大量关联数据及数据库中提取隐含信息的过程,目的是发现未知的和规律性的知识 。
E N D
第九章 数据挖掘与基因表达调控信息分析 主讲人:孙 啸 制作人 :刘志华 东南大学 吴健雄实验室
第一节 引言 • 基因表达调控是分子生物学目前研究的一个重点,基因转录水平上的调控是最重要的环节。 • 与基因表达调控有关的信息包括基因组DNA序列、转录因子、调控元件、基因表达数据等。
第二节 生物数据挖掘和可视化 1、数据挖掘 • 数据挖掘,即数据库中的知识发现,是一个从大量关联数据及数据库中提取隐含信息的过程,目的是发现未知的和规律性的知识 。 • 数据挖掘本质上是对数据库中蕴涵的、未知的、有潜在应用价值的、非平凡知识的提取。
数据挖掘常用的方法有: • 统计分析 • 规则归纳 • 决策树 • 聚类分析 • 神经网络 • 自组织映射 • 遗传算法
数据库集成: • 数据仓库技术 • 所有的数据在物理上集中在一起 • 虚拟数据库技术 • 数据表面上或者在逻辑上是集成在一起,然而它们的物理存贮则是分散在Internet不同的数据服务器上
从两种数据库集成技术来看: • 数据仓库技术实用于数据库变动不太频繁、数据库中数据类型和使用方法比较接近的情况。 • 虚拟数据库技术实用于数据更新速度快、数据类型和使用方法完全不一样的情况。
利用计算机进行自动分析和数据挖掘,发现功能和特征 ,主要体现在四个方面: • (1)序列和结构特征 • (2)同源家族 • (3)基因表达模式 • (4)与疾病相关的数据特征
2、生物信息可视化 • 通过数据的可视化,帮助人们认识和理解数据,进而分析和解释数据,使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律,为科学发现提供依据。
可视化程序从人类认知特性出发,以表格、色彩、多维图形、动画等形式表示生物分子数据。可视化程序从人类认知特性出发,以表格、色彩、多维图形、动画等形式表示生物分子数据。 • 生物数据可视化包括应用软件的图形用户界面、可视化程序。 • 通过图形界面,用户可以很方便地使用应用软件,观察生物分子数据,甚至通过图形方式处理生物分子数据。
可视化技术早已应用在生物信息学中,如: • 用分子图形学技术显示分子的结构 • 显示序列比较的点图
生物分子数据的最大特点是存在着复杂的相互关系生物分子数据的最大特点是存在着复杂的相互关系 • 如DNA到 RNA的映射关系、基因调控信息与基因表达数据之间的关系、基因之间的相互作用关系等 • 这一特点决定了生物信息可视化技术不仅要显示信息本身,而且要显示信息之间的关联。
几种生物信息可视化技术 • (1)层次树与聚焦、关联数据显示鱼眼镜技术 • 鱼眼镜是一种广角镜,它详细显示中心区域内容,渐粗地扭曲显示远景。
(2)信息壁技术 • 信息壁是适合视窗中显示完整信息空间的二维简化表示法。它利用灰度、阴影、亮度、色彩、象素尺寸等视觉特征及图像压缩技术产生信息空间的缩影。作为导航背景的壁能够提供信息背景,以支持平铺和缩放等更细节的聚焦观察。信息壁的全景观察加上平铺和缩放,就可作为一种独立的可视化工具。
(3)魔镜 • 这是一种新的用户界面工具,看似一块透明玻璃,用户可用来定制数据视窗和底层应用。好比在一平面坐标数据集上放置一成像工具镜,就会得到框架内数据的曲线图。多重镜头重叠可从更多层次上观察数据。
魔镜是一种语义镜 • 所谓语义镜是一种能对群体目标进行全局浏览并且保持个体间特定关系的可视化方法,它通常通过放大局部细节、缩小周边内容的方法来满足观察需要。 • 魔镜技术推进了自定义界面的应用。
3、基因调控数据可视化技术 • 目前,基因数据可视化技术主要有: • (1)语义镜技术 • (2)信息壁技术 • (3)基因调控网络表示则是表现生物分子相互作用、复合及作用路径等生物信息的新可视化技术
第三节 基因转录调控元件识别 • 在转录和后转录水平,基因的表达在很大程度上受到一些顺式作用元件(即转录调控元件)的控制 • 它们本质上是一些比较短的DNA序列,这些序列一般都处在受调控基因的上游区域
调控序列的分析主要涉及三类问题: • (1)在给定基因的上游区域寻找已知的调控元件 • (2)在一系列共表达或者共调控基因的上游区域中发现未知的调控元件 • (3)寻找由一个已知转录因子调控的未知基因。
可以通过实验的方法来标识调控元件。 • 主要的方法是通过对目标基因或者假想的调控区域进行突变分析识别调控元件。 • 另一种方法是通过分析转录因子结合的DNA序列来识别调控元件。
几种典型的算法 • 1、计数法 • 2、WORDUP算法 • 3、信息含量方法 • 4、MM(Mixture Model)算法
ATCGT CGTGA 序列1:CGTGAAC 序列2:ATCGTGA GTGAA TCGTG CGTGA TGAAC n-tuples的选择 序列1:CGTGAAC 考虑n=5,相应的矩阵为 序列2:ATCGTGA 7.189641 6.315172 10.687518