220 likes | 452 Views
Chinese Virtual Observatory. LAMOST 数据存储与发布系统 设计方案与原型. 罗宇 中国虚拟天文台研发团队. 大纲. LAMOST 背景 数据量估算 数据分类与存储方案 系统原型方案 原型初步功能. LAMOST 简介.
E N D
Chinese Virtual Observatory LAMOST数据存储与发布系统 设计方案与原型 罗宇 中国虚拟天文台研发团队
大纲 • LAMOST背景 • 数据量估算 • 数据分类与存储方案 • 系统原型方案 • 原型初步功能 VO Tutorial @ CAS 2006
LAMOST简介 大天区面积多目标光纤光谱天文望远镜(LAMOST)是一架横卧南北方向的中星仪式反射施密特望远镜。应用主动光学技术控制反射改正板,使它成为大口径兼大视场光学望远镜的世界之最。由于它的大口径,在曝光1.5小时内可以观测到暗达20.5等的天体。而由于它的大视场,在焦面上可以放置四千根光纤,将遥远天体的光分别传输到多台光谱仪中,同时获得它们的光谱,成为世界上光谱获取率最高的望远镜。它将安放在国家天文台兴隆观测站。它将成为我国天文学在大规模光学光谱观测中,在大视场天文学研究上,居于国际领先的地位。 VO Tutorial @ CAS 2006
自动化观测与处理子系统介绍 • LAMOST每夜将观测上万个天体的光谱,其数据量是数G字节;而总的计划是观测上千万条光谱。因此LAMOST应该是一个全自动地进行观测运行和数据处理的系统,以最有效地获得观测数据和取得最大的科学成果。为此目的,LAMOST设计了一套完整的自动化观测与处理的软件,其中主要包括巡天战略系统(SSS)、观测控制系统(OCS)和数据处理系统(DPS)。 • LAMOST数据存储与发布系统就是数据处理系统(DPS )的一部分。它将管理LAMOST各种数据的存储、备份等工作,并将数据分阶段的发布出来,以方便国内外的研究人员使用。 VO Tutorial @ CAS 2006
LAMOST数据规模估算 • 根据详细设计文档的描述,4000根光纤将以每250根为一组,分为16组,输入到16台光谱仪。每天光谱仪将每条光谱分为红蓝两部分,由两台CCD相机进行记录。完整的观测系统由32台CCD相机构成。每台CCD相机采用4096×4096像素CCD记录数据,像素深度16比特(两个字节)。一个观测夜内,对每个天区将进行三次重复观测,每次30分钟。如果按照每晚工作7.5到9小时,则可以观测5个天区。 • 根据上述观测模式,每晚得到的原始观测数据大小为: • 4K*4K*2*32*5*3=15.36 (GB) • 考虑平场拍摄等因素,每晚原始数据的大小可以按照20GB来估计。如果按照每年300天观测,那么一年积累的原始数据约为6TB。按照项目5年的生命周期来估计,整个项目的原始数据将为30TB左右。 • 假设经过处理得到的一维光谱大小为原始数据的一半,星表为一维光谱大小的一半。其它类型的数据与星表大小类似。那么LAMOST项目对存储容量的需求大约为60TB。 VO Tutorial @ CAS 2006
数据种类 • 二维光谱数据。包括CCD相机直接观测得到的数据和经过二维图像处理后得到的二维光谱图像数据。 • 一维光谱数据。二维图像数据经过图像处理系统处理后得到的一维光谱。 • 巡天星表。经过光谱自动处理和分析后得到的包含目标天体各种测量参数在内的星表。 • 工作星表。为LAMOST巡天观测的进行而准备的各种星表,包括核心星表、输入星表、导星星表等。 • 系统运行数据。LAMOST观测与运行过程中产生的,对科学数据的使用有直接影响的数据,比如各个子系统的日志数据等。 • 其他需要保存的数据。 VO Tutorial @ CAS 2006
各种数据的存储方式 • 二维光谱数据,按照国际惯例以FITS格式以文件形式保存,同时以关系型数据库方式保存数据文件元数据。 • 一维光谱数据,按照FITS格式的数据文件形式保存,同时考虑以VOTable格式和关系型数据库格式保存。以关系型数据库方式保存数据文件元数据。 • 巡天星表,以关系型数据库形式保存。 • 工作星表,以关系型数据库形式保存。 • 系统运行数据,根据各子系统的情况以关系型数据库形式或者XML文件、或者纯文本文件形式保存。 VO Tutorial @ CAS 2006
LAMOST数据发布系统基本结构(基本方案) VO Tutorial @ CAS 2006
存储系统模块化结构 VO Tutorial @ CAS 2006
预期软硬件配置与拓扑构架 操作系统:Redhat Enterprise Linux 4 数据库系统:MySQL 5.0 Web服务器:Tomcat 5.5 数据存储:SATA 阵列 数据至少有两套备份,并要求一份在异地(兴隆、北京2、合肥) Web服务器 Mysql服务器 File Provider A File Provider C File Provider B VO Tutorial @ CAS 2006
星表构成 核心星表结构 VO Tutorial @ CAS 2006
数据压缩与数据传输规范 • 采用标准的“GZIP”压缩方式 • LAMOST观测系统、数据处理系统以及发布系统的操作系统采用LINUX平台。 • 文件归档方式采用通用的“tar”方式。 • LINUX平台上支持的数据传输方式主要包括:FTP,FTP over SSH, rsync, HTTP等。根据当前的使用情况和支持情况,采用FTP和SFTP方式。在数据发布时提供HTTP方式。 VO Tutorial @ CAS 2006
存储系统文件命名规范(原始文件) 原始二维光谱文件采用:“LM+儒略日+Tile+Run+光谱仪ID+谱段+类型+数据级别”的方法。例如:“LM2453848-0000001-03-16-bsr.fit”。 其中“谱段”指“红、兰”两段,用“r、b”标识。 其中“类型”指光谱种类,有如下几种: • o:obj,目标 • s:sky,天光 • f:flat,平场 • b:bias,本底 • a:arc;灯谱 • d:dark暗流 • t:test;测试数据 “光谱仪ID”从1至32,其中,1-16为低分辨光谱模式,17-32为中分辨光谱模式。 “数据级别”指原始二维图像、处理后的产品、临时数据,分别用“r、p、t”标识。 VO Tutorial @ CAS 2006
存储系统文件命名规范(产品级二维光谱与一维光谱) • 产品级二维光谱文件名采用:“LM+儒略日+Tile+光谱仪ID+谱段”的方法。其中“谱段”指“红、兰”两段或者合并谱,用“r、b、a”标识。比如:LM2453848-0000001-16-a.fit • 一维光谱文件采用:“LM+儒略日+Tile+光纤号+谱段”的方法,比如:“LM2453848-0000001-1869-b.fit”。高分辨光谱、特例观测数据命名另行处理。 VO Tutorial @ CAS 2006
数据发布系统基本界面 Retangle Query:由用户给出ra,dec等参数的最大值与最小值,从而确定查询范围。 Radial Query:由用户指定ra,dec参数作为中心,指定查询半径,从而确定一个园面作为查询范围。 SQL Query:用户输入sql标准查询语句进行查询。 SQL Batch Query:将查询运行于服务器后台队列中,将结果集保存为文件形式供下载。 Tele Param Query:根据LAMOST数据文件命名方式查询光谱文件。目前只能查询2D光谱文件。 VO Tutorial @ CAS 2006
Retangle Query VO Tutorial @ CAS 2006
Sql Query VO Tutorial @ CAS 2006
SQL Batch Query VO Tutorial @ CAS 2006
Telescope Param Query VO Tutorial @ CAS 2006
Data import LAMOST的内部用户通过该页面对光谱数据的入库进行人工操作与设定。 可以得到所有的提供数据的机器,从而将存在于这个用户目录下的数据转移到这种类型数据对应的目录中。并且将每个光谱文件存储信息反馈到中心服务器上。 VO Tutorial @ CAS 2006
下一步开发计划 1、完善批处理模块的功能,针对LAMOST的特 点和应用LAMOST做科学研究的流程,开发对应的工作流系统。 2、完成与VO-DAS接口的模块,从而实现与VO-DAS的集成。 3、开发JAVA客户端管理软件。 4、进一步分析需求,重构原型系统。 VO Tutorial @ CAS 2006
谢谢! VO Tutorial @ CAS 2006