370 likes | 511 Views
LAMOST. 天文学中的数据挖掘. 张彦霞 国家天文台 2011.11.10 贵阳. LAMOST. 概要. 必要性 概念 技巧 问题 展望 文献. LAMOST. 海量数据. NVO (IVOA) 注册的数据资源有 ~14,000 一些大型的天文数据库包括 NASA 空间天文项目 已经完成或正在进行的大型天文巡天项目,如 : MACHO 和相关的暗物质巡天 : ~ 1 TB DPOSS: 3 TB 2MASS: 10 TB GALEX: 30 TB SDSS: 40 TB 将来的巨型巡天项目,如 :
E N D
LAMOST 天文学中的数据挖掘 张彦霞 国家天文台 2011.11.10贵阳
LAMOST 概要 • 必要性 • 概念 • 技巧 • 问题 • 展望 • 文献
LAMOST 海量数据 • NVO (IVOA) 注册的数据资源有~14,000 • 一些大型的天文数据库包括NASA空间天文项目 • 已经完成或正在进行的大型天文巡天项目,如: • MACHO 和相关的暗物质巡天: ~ 1 TB • DPOSS: 3 TB • 2MASS: 10 TB • GALEX: 30 TB • SDSS: 40 TB • 将来的巨型巡天项目,如: • PanSTARRS:每晚10 TB,预计最终40 PB • LSST (Large Synoptic Survey Telescope): • 2018开始运行, with 3-Gigapixel camera • 每30秒10 GB • 每晚 30 TB,持续十年 • 预计最终的图像数据100 PB–所有数据公开!!! • 预计最终的星表数据30 PB • 实时事件挖掘: 每晚事件10,000-100,000个, 持续十年 • 每三晚巡全天一次: 制作天体的电影
天文学:是发现驱动的科学 •驱动发现的因素: • –新问题 • –新的思想 • –新模型 • –新理论 • –更重要的是新数据!
天文学:是发现驱动的科学 •发现导致: • –新的问题 • –新思想 • –新模型 • –新理论 • –更重要的是... 更多的新数据! •因此,需要更有效的挖掘和分析算法或工具
天文学家一直在从事数据挖掘 “The data are mine, and you can’t have them!” •严格意义上讲 ... •天文学家喜欢对事物进行分类 ... (监督学习. 如,分类) •天文学家喜欢对事物归类 ... (非监督学习. 如,聚类) •天文学家更希望发现新的天体或现象 ... (半监督学习. 如, 离群探测)
天文中的数据挖掘课题 Ofer Lahav, 2006, astro-ph/0610703 Summary on the 4th meeting on “Statistical Challenge in Modern Astronomy” held at Penn State University in June 2006 • 压缩 (如. 图像和光谱) • 分类(如. 恒星,星系,或伽马射线暴) • 重建(如. 星系模糊图像的重建, 弱引力透镜质量分布的重建) • 特征抽取 (如. 恒星、星系和类星体的重要特征) • 参数估计 (如. 恒星参数估计, 测光红移预测, 太阳系外行星的轨道参数, 或宇宙参数 ) • 模型选择(如. 一颗恒星有几颗行星绕转?)
过去:100到1000个独立的分布的异构数据 / 元数据 / 信息库. 目前: 天文数据可以从融合的分布资源中获得,如虚拟天文台. 将来:随着大型巡天项目的发展,天文学在未来将越来越成为数据密集型的科学. 挑战:越来越难于将数据传输到用户… 算法移植到数据 ! 天文学研究的转变
数据驱动到数据密集 天文学一直以来就是数据驱动的科学 现在成为数据密集型的科学: 天文信息学(Astroinformatics)! 面向数据的天文学研究= “第四范式” 科学知识发现 第四范式: 数据密集型的科学发现 Scientific Knowledge ! • 大数据集的优点: • 很好地统计分析典型或特殊事件 • 自动搜寻稀有事件
定义 数据挖掘:从大量的、不完全的、有噪声的、 模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知 道的、但又是潜在有用的信息和知 识的过程。
知识发现的优点 价值 发布 DSS 产生 MIS EDP 快速响应 巨量 EDP: 电子数据加工 MIS: 管理信息系统 DSS: 决策支持系统
数据挖掘:知识发现的过程 知识 • 数据挖掘—知识发现(KDD)过程的核心 模式评估 数据挖掘 特定任务的数据 选择 数据仓库 数据清洁 数据融合 数据库
数据挖掘:多学科的交叉学科 数据库系统 统计学 数据挖掘 机器学习 &人工智能 可视化 信息科学 其它学科
KDD: 机遇和挑战 竞争的压力 KDD 数据挖掘技术的成熟 数据丰富知识贫乏 驱动技术: (互动的管理信息系统, OLAP, 并行计算, Web, etc.)
数据挖掘的常用技术 • 人工神经网络 • 支持矢量机 • 决策树 • 遗传算法 • 近邻算法 • 规则推导 • 粗糙集
数据挖掘的任务 • 数据总结 • 分类分析 • 聚类分析 • 回归分析 • 关联规则分析 • 序列模式分析 • 依赖关系分析 • 偏差分析 • 模式分析或统计分析 • 时序数据分析 • 其它
分类分析 • 定义 • 按照某种规则,新的数据被划分到已知类别中的一类。 • 这个规则是通过具有标签的数据进行监督学习获得的。 • 应用 • 恒星分成不同的光谱型,星系按哈勃或形态分类,活动 星系核进一步细分,等等 • 方法 • 神经网络 • 决策树 • Naïve Bayesian Networks • 支持矢量机 • 学习矢量量化 • 遗传算法 • …….
采用何种分类器? 分类算法 决策树, OC1 神经网络 最近邻规则 或其他算法 分类器可以沿几个正交的轴来训练,探索所有的维数比较困难 不同的任务需要不同的分类器来实现. 观测参量 流量, 位置, 色参数, 变化参量, 空间扩展, … X射线, 可见光, 红外, ... 分类 粗分: 恒星 vs. 河外天体 细分: A0 vs. B0…, AGN vs. QSO vs. 星系 训练样本 WGACAT, ROSAT All Sky Survey, ...
聚类分析 • 定义: • 按照某种规律聚在一起的称为一类。 • 所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。 • 应用: • SDSS的双色图恒星聚在一块 如香蕉状,类星体则偏离该区域。 • 方法: • K均值聚类 • Hierarchical clustering • 预期最大算法(Expectation Maximization algorithm) • 高斯混合模型(Gaussian mixture modeling) • 主成分分析 • …… • 优越性 • 新的概念(Concept discovery) • 点滴知识(Bootstrapping knowledge)
聚类分析 1 Djorgovski,etal.
基本的天文问题– 1 聚类问题: 在数据集中查找聚类的天体 统计意义和科学意义上各个类别的重要性是什么? 找“朋友的朋友”或近邻的最优算法? N >1010, 如何有效地排序、分类? 维数 ~ 1000 –因此, 若干子空间搜索问题 是否存在两点或更高阶的相关性? N >1010, N-point 相关怎么做? 与N2logN成正比的算法显然不能用
基本的天文问题– 2 离群探测: (未知的未知) 找到那些超出我们预期的天体或事件 (不属于已知类别) 这些有可能是真正的科学发现或垃圾 因此,离群探测可用于: 新奇发现 –Nobel prize? 异常探测 –探测系统是否正常工作? 数据质量保证 –数据流是否正常工作? 在1000维空间中或感兴趣的子空间(低维空间)中,如何最优化地探测到离群? 怎样衡量“兴趣度”?
降维问题: 寻找相关性和参数的基平面 基本的天文问题– 3 • 维数成千上万 • 维灾 ! • 参数之间的相关性?线性或非线性混合? • 本征值或紧致表示是否可以代表整个数据集的性质?
基本的天文问题– 4 叠加和分解问题: 在参数空间中重叠的天体找出它们的所属类别 假设1010天体在1000维空间中重叠怎么办? 如何最优地分解和抽取不同类型的天体? 一些约束条件如何应用?
最优化问题: 在高维参数空间中如何找到复杂的多变量函数的最优解(最佳拟合、全局最大似然) 基本的天文问题– 5
为什么需要分布的数据挖掘? 由于… …许多重大的科学发现产生 于多数据源的交叉证认: -- 类星体 -- Gamma-ray bursts -- 极亮红外星系 -- X射线黑洞双星 -- 射电星系 . . . “Just Checking”
天文数据的分布性 不同的人、研究所、项目、国家、机构, … 数据的异构性 (如,数据库, 图像, 星表, 文件系统, 网页, 文档数据图书馆, 二进制, 文本, 结构的,非结构的, …) 天文学家要查询和挖掘这些数据需要进行两步操作 尽管虚拟天文台驱动数据发现和融合,但是 仍然不能有助于大型数据挖掘的开展
分布的数据挖掘 • 分布的数据挖掘有两种类型: • 分布的挖掘数据 • 挖掘分布的数据 • 第一类要求复杂的算法移植到数据 • 第二类多种形式, 数据整体存放或分割上集中, 或者数据分布存放在不同的地方
实践数据挖掘 • 线性或非线性 • 高斯或非高斯 • 连续或离散 • 是否存在缺值 • 对比特征和样本数 • 按照数据挖据的任务和特征, 选择合适的数据挖掘算法
未来天文数据的挑战 • 统计、计算和挖掘方法用于peta-和 exa-量级的可扩张性 • 在海量多维数据空间中同时多点拟合的算法优化 • 用于探索PB级数据的紧致表示的多分辨率、多级、分形、分级方法和结构 • PB量级数据的可视化分析 (包括特征探测, 模型和有趣事件或天体的发现, 相关关系、聚类, 新类型天体的发现, 降维) • 高维PB级数据的索引和联合存储技巧(树、图、网络拓扑) • PB级数据库的快速查询和搜索方法
成功的数据挖掘项目(I) • http://dame.dsf.unina.it/ ●测光红移估计 ● 球状星团搜寻 ●多波段测光暂源分类 ● 天文图像分割
成功的数据挖掘项目(II) • http://astrostatistics.psu.edu/vostat/ VOSTAT Statistical Analysis for the Virtual Observatory VOStat项目通过网页服务为天文学家提供了一套工具。天文学家可以按照需要调用简单的或复杂的程序来实现自己的任务。这套工具是基于大的开源的统计计算语言和环境R 开发的。所有的统计计算在VOStat 的服务器端进行,算完后再传给用户。
天文会议或组织 • ADASS(The Astronomical DataAnalysis Software and Systems) • ADA(The Astronomical Data Analysis) • Summer School in Statistics for Astronomers • Statistical Challenges in Modern Astronomy • Astroinformatics • Astrostatistics
数据挖掘的参考文献(I) • “From Data Mining To Knowledge Discovery: An Overview.” Fayyad, U.M., Piatetsky-Shapiro, G., and Smyth, P. In Advances In Knowledge Discovery And Data Mining , eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 1-34. • “Data Mining and Machine Learning in Astronomy”, Ball,NicholasM.; Brunner,RobertJ. International Journal of Modern Physics D, Volume 19, Issue 07, pp. 1049-1106 (2010). ■ “Scientific Data Mining in Astronomy”Borne,Kirkeprint arXiv:0911.0505 ■“Data Mining and Discovery of Astronomical Knowledge”Al-Naymat,GhaziScientific Data Mining and Knowledge Discovery, , Volume . ISBN 978-3-642-02789-5. Springer-Verlag Berlin Heidelberg, 2009, p. 319
数据挖掘的参考文献(II) • “数据挖掘技术在天文学中的应用” 张彦霞 赵永恒. 科研信息化技术与应用, 2011,V2(3): 13-27 • “Mining knowledge in astrophysical massive data sets”Brescia,Massimo; Longo,Giuseppe; Pasian,Fabio Nuclear Instruments and Methods in Physics Research Section A, Volume 623, Issue 2, p. 845-849. ■“DAME: A Web Oriented Infrastructure for Scientific Data Mining & Exploration”Brescia,Massimo; Longo,Giuseppe; Djorgovski,GeorgeS.; Cavuoti,Stefano; D'Abrusco,Raffaele; Donalek,Ciro; DiGuido,Alessandro; Fiore,Michelangelo; Garofalo,Mauro; Laurino,Omar; Mahabal,Ashish; Manna,Francesco; Nocella,Alfonso; d'Angelo,Giovanni; Paolillo,Maurizio:eprint arXiv:1010.4843 • “Data Mining and Machine-Learning in Time-Domain Discovery & Classification”Bloom,JoshuaS.; Richards,JosephW.eprint arXiv:1104.3142