710 likes | 813 Views
第五章 网格数据管理技术. 内容. 数据网格技术概述 Globus 的数据管理 OGSA - DAI. 第一节数据网格技术概述. 什么是数据网格 ?. 从科学研究的角度看:允许地理上分布的团体对 Petabytes ( Terabytes )的科学数据进行复杂、计算密集型的分析、处理 多个数据提供者 跨网络的最优数据移动 无缝的安全的数据访问 良好的访问控制机制和复杂的使用方式 数据访问的保证 类似电力网格 Multiple power generators Complex transmission networks with switching
E N D
内容 • 数据网格技术概述 • Globus 的数据管理 • OGSA-DAI
什么是数据网格? • 从科学研究的角度看:允许地理上分布的团体对Petabytes(Terabytes)的科学数据进行复杂、计算密集型的分析、处理 • 多个数据提供者 • 跨网络的最优数据移动 • 无缝的安全的数据访问 • 良好的访问控制机制和复杂的使用方式 • 数据访问的保证 • 类似电力网格 • Multiple power generators • Complex transmission networks with switching • Simple Usage Interface – plug and play • Guaranteed Supply - Meeting of demands • Complex cost function
从 1993 到2004 • 巨大的数据量: Petabytes • For an increasing number of communities, gating step is not collection but analysis • 无处不在的因特网:100+ million hosts • Collaboration & resource sharing the norm • 超高速的网络: 10+ Gb/s • Global optical networks • 巨大的计算能力: 100+ Top/s • Moore’s law gives us all supercomputers
结果:全球知识社区的出现 • 围绕共同的目标组织的一支队伍 • 社区: “Virtual organizations” • 各种成员和能力 • 异构是一种力量而不是弱点 • 地理上和行政管理区域的分布 • 没有一个点和机构具有所有的能力和资源 • 适应如此环境是系统的功能 • 调整成员、分配职责和资源
全球知识社区的出现常常是由数据驱动: 例如 Astronomy • No. & sizes of data sets as of mid-2002, grouped by wavelength • 12 waveband coverage of large areas of the sky • Total about 200 TB data • Largest catalogs near 1B objects Data and images courtesy Alex Szalay, John Hopkins
Many sources of data, services, computation Security & policy must underlie access & management decisions Discovery R R RM RM Registries organize services of interest to a community Access RM Resource management is needed to ensure progress & arbitrate competing demands RM RM Policy service Security service Policy service Security service Data integration activities may require access to, & exploration of, data at many locations Exploration & analysis may involve complex,multi-step workflows 数据的集成是一个基本的挑战
为什么我们需要数据网格? • 数据是分布的 • 远程进行计算 • 分布计算 • 大规模的数据移动 • 跨域的数据共享 • 大规模的数据存储 • 多个数据集合的访问 • 动态、分布的社区信息资源的共享 • 建立、协商、管理和多组织的联邦的发展 • 协同、管理、提供、工作流的监控和所需资源
数据网格需求 –1 • 无缝的访问 • 规模可扩 • in Size & Number • 可保证的质量传递 • Fault tolerance, load sharing,Consistency Maintenance • 处理异构和多样性 • Platforms & systems, vendors, types of storage, types of services, types of processes & users • 可控制的数据移动 • Demand-driven Data placement • Caching, archiving, version and locks • Third-party data movement • Parallel data transfer
数据网格需求 –2 • 数据结构和表示 • DGMS必须支持访问所有在数据结构和表示中定义的数据类型 • Numeric data at highest of precision • Text data in any format, structure, language, and coding system • Multimedia data in any standard or user defined binary format
数据网格需求 –3 • 支持自动的认证 • Multiple Authentication Realms – single sign-on • Uniform user name space • 授权 – 访问控制 • Seamless One-stop authorization • Roles & Tickets – inheritance & longevity • Possible: data owner can grant 、revoke access、permission ,and delegate authority • Flexible :combinations of restrictions and the level of granularity level • Effective: grant and revoke all types of privileges dynamically • Easily :provide facilities or tools to owners
数据网格需求 –4 • 虚拟数据组织 • Data Location Independence,Uniform data name space, • persistent identifiers,Collections Hierarchy • 与元数据的紧密集成 • 数据发布 • 动态地注册和注销数据资源Register and deregister data resources dynamically • Register and deregister can be propagate to site holding replicates • 元数据定义、发布和说明过程的自动化
数据网格需求 –5 • 与元数据的紧密集成 • 数据发现 • complex querying & browsing • System, user-defined, domain-specific, application • Access Control for Metadata
数据网格需求 –6 • 数据服务 • Web- accessibility (HTTP GET, WSDL, SOAP) • 数据存取和API • 定位数据物理位置 • 根据参数构造搜索规则和匹配标准 • 构造查询、分布式查询或者异构联邦查询 • 从多个不通的数据源从抽取数据汇集成一个逻辑单一的数据集 • 代理操作 (security/access considerations) • Bulk Operations - batch • 交互式操作和异步操作
数据网格需求 –7 • 数据管理操作 • 管理横跨多域、异构的环境中的资源,保证 24x7x52 小时的高可用能力. • DGMS must ensure that data resource/data resource content catalogues/registries are always available and the definitions in them are current, accurate, and consistent • must maintains referential integrity of DGMS data resources • 确保复制数据资源目录的动态一致性
数据网格需求 –8 • 虚拟管理 • Single-point administration • Autonomous local control • Multiple-levels of administrations – • Roles and Responsiibilities • Policy Management • Distributed Caching, Archiving, Replication & Data Placement • Locking, Pinning, BackUp • Data Movement • Preferences, Priorities Administration • Auditing, Quotas, Pricing
数据网格需求 –9 • 存储 • Hierarchical Storage Systems, Tapes, Disks, SAN, NAS, NFS, Databases, FTP servers, HTTP servers, WSDL services, … • Integration on Device Characteristics • Storage Bricks • Distributed Cluster Storage • 网络 • Characteristics • NWS • Guaranteed Service
数据网格管理的体系结构 • Heterogeneity Transparency • Location Transparency • Name Transparency • Distribution Transparency • Replication Transparency • Ownership & Costing Transparency
Application Data Model Management Remote Procedure Execution Information Discovery Data Handling Systems Dynamic Info Discovery Storage System Description Storage Resources Open Grid Architecture
Open Grid Architecture Application Data Model Management Remote Procedure Execution Armada D’agents, FEL, ADR GRAM, SRB Information Discovery Data Handling Systems LDAP, Database, Flat file, Object database Condor, GASS, NILE, SRB, I-2 caching, ADR (e.g., filtering) Dynamic Info Discovery Storage System Description Storage Resources DPSS, DFS, NFS, HPSS, ADSM, DMF, Unitree, NASstore, DB2, Oracle, Informix, Sybase, O2, ObjectStore, Objectivity DTD, ADR, object class GloPerf, Netlogger, NWS
Open Grid Architecture API that provides “glue” to underlying data handling systems (security, scheduling, QoS, access protocol, data format/model, adaptivity, info discovery, location control) Application + authentication + authorization Data Model Management Remote Procedure Execution Armada D’agents, FEL, ADR GRAM, SRB Information Discovery Data Handling Systems LDAP, Database, Flat file, Object database Condor, GASS, NILE, SRB, I-2 caching, ADR (e.g., filtering) Dynamic Info Discovery Storage System Description API that provides “glue” to underlying storage, QoS, etc. [GASS, IBP, SRB] Storage Resources DPSS, DFS, NFS HPSS, ADSM, DMF, Unitree, NASstore, DB2, Oracle, Informix, Sybase, O2, ObjectStore, Objectivity GloPerf, Netlogger, NWS DTD, ADR, object class
数据网格的概念空间 Replica Metadata Authentication protocol Management Metadata Resource Metadata Descriptive Metadata Network Metadata Global Namespace Compute Platforms Sub-Collection ACLs Networks Logical Object Remote Proxies Collection Data Handling System Caches Containers Local Storage Manager Physical Object Storage Systems Data Model Storage Access protocol Replicas Storage Properties Metadata Resources Data Service Protocols
Collection A a 4 1 5 MDS 2 b 3 Sybase Table X … Ext3 /bin /usr … NFS M1://bin/ M2://proc/ … NTFS C:\ D:\ … 2.2 虚拟数据集 Collection A{ subColletion a{ File 1 File 2} subCollection b{} File 3 File 4 File 5 …}
数据网格结构视图 属性定义 复制目录 元数据目录 应用 多个位置 NWS 逻辑 Collection 和逻辑文件名 Selected Replica 复制选择 MDS 性能、信息 和预测 gsiftp Disk Cache TapeLibrary Disk Array Disk Cache 复制位置 1 复制位置 2 复制位置 3
网格文件系统-背景 • 网格中的海量数据可能以任何格式保存在任何存储系统中 • 其中很多大容量数据仍保存在文件中 • 海量数据是分布的、并处于多个管理域中 • 为了方便的统一地访问分布海量数据文件,需要一种标准的机制去描述和组织文件
/grid ggf jp aist gtrc file1 file2 file2 file1 file3 file4 网格文件系统服务 • 网格文件系统在网格中的文件系统上联邦和共享虚拟数据 • Virtual hierarchical namespace with access permission and metadata • Reliable POSIX-like I/O interfaces for the Grid file system Virtual Directory Tree Grid File System services Replica services Data services Mapping Grid File System
网格文件系统-研究内容 • 网格文件系统(GFS)工作组制订两种规范: • 网格文件系统目录服务 • 网格文件系统服务体系结构 • 网格文件系统目录服务规范-描述和管理文件系统 • 数据命名空间 • 访问控制机制 • 元数据定义和管理 • 元数据信息服务 • 网格文件系统服务体系结构规范 • Extends VFDS and File Access Services • Provides reliable POSIX-like I/O interfaces for the Grid File System • Virtual pathname, virtual filename
网格文件系统体系结构 browser Applications (Astronomy, Physics, Life Science, business apps, . . .) Hierarchical Logical Name space + ACL + metadata Grid File System Service (POSIX-like Interface) NFS/CIFS … Virtual Directory Service (Management of virtualization) Data Services Coordinated with other groups Data Sources
网格文件系统的需求 • 逻辑层次命名空间 • 单一的存储接口 • 复制管理 • 数据访问和传输 • 延迟管理 • 元数据管理 • 安全 • 优化和性能改进 • APIs
逻辑层次命名空间 • 逻辑名空间 • 层次化 • 在逻辑名上的POSIX 操作 • Soft links • 单个逻辑名的文件汇集
单一的存储接口 • 访问 • File systems • Database objects • Interface to storage middleware • 针对文件和数据库的公共接口机制 (争论性问题)
复制管理 • 分布/层次复制目录 • 复制的创建和管理 • 一致性管理 • 副本之间的负载平衡 • 文件/对象部分内容的复制
数据访问和传输 • GridFTP support • 其他传输机制-用户可选? • 可靠的传输 • 并行I/O
延迟管理 • Streaming • Disk Caching • Pre-fetching • Remote I/O proxies • Bulk opeartions
元数据管理 • Metadata Catalog • Hierarchical • Distributed • Federation • Metadata to be maintained • File level (size, creation/modification/access time, creator …) • Storage metadata • Access control metadata • Provenance metadata • Metadata Consistency
安全 • GSI 认证 • 其它认证机制 • 访问控制列表 ? • Ownership
优化 • 优化的副本选择 • 批量操作 • 预产生的服务实例 • 其它优化技术和方式
APIs • File API (POSIX semantics) • Object level API • Web service API
AVAKI产品 • Leigon系统从大学到商业公司 • Legion系统是网格系统软件和Globus齐名的两大系统之一 • Virginia大学开发 • 以对象模型为基础 • 开放性和层次性教globus差
AVAKI Grid Software –Compute and Data Grid Capabilities HQ-1 PM - 1 R D - 2 Compute Data Genbank Swisprot - SRS Results_01 Enterprise Users Partner Users • Unifies compute, data and application resources • Single, global namespace • Secure access • Simplified administration • Failure detection and restart Queuing System Queuing System Desktops Server Shared Data Shared Output Cluster Server Server Shared Data Sources Partner Enterprise IT Departments User Departments
AVAKI Data Grid Data Genbank Swisprot - SRS Results_01 Enterprise Users Partner Users • 联邦多个数据源 • 提供对局部虚拟文件系统的数据访问 (DAS, NAS, SAN) • 通过标准接口访问数据 • 局部缓冲数据 Queuing System Queuing System Desktops Server Shared Data Shared Output Cluster Server Server Shared Data Sources Enterprise Partner IT Departments User Departments
Avaki Data Grid –Data Mapped to the Global Namespace Windows 2000 • 将各数据源位置的文件和目录到数据网格的目录和用户定义的名字 • 定义独立于物理位置的网格名空间(三层命名空间) • 跨平台、位置、防火墙、管理域和数据拥有者的统一数据视图 Solaris Linux Partner Enterprise IT Departments User Departments
Avaki Data Grid –Access Data Data Data Data Genbank Genbank Genbank Swisprot - SRS Swisprot - SRS Swisprot - SRS Results_01 Results_01 Results_01 • 使用标准的NFS协议和Avaki命令访问数据 • 使用用户定义的名字访问 • Access based on specified privileges • Single log-on for shared data access • Aggressively caches data locally Enterprise Users Partner Users AVAKI Data Access Server AVAKI Data Access Server Cached Copy Cached Copy Queuing System Queuing System Desktops Server Shared Data Shared Output Cluster Server Server Shared Data Sources Partner Enterprise IT Departments User Departments
设计思想 • 客户使用标准的NSF接口进行访问 • 由于采用了全局视图和命名 • 同时客户端使用了修改后的NSFClient软件, • 数据服务系统截取使用NSF访问协议的请求, • 对数据操作进行分析,进行名字解析、数据定位和协议转化,例如访问文件系统或CINF文件系统等, • 不同的文件存储系统进行不同的文件协议操作,将结果返回给客户。
AVAKI 2.5 Data Grid Benefits • 不需要改动应用,按照用户典型访问数据的方式进行 • 无需关系地理位置、管理域和平台,简便的广域访问数据 • 提供一致性的最新合适数据访问 • 消除用户创建和管理数据的多个拷贝 • 缓冲远程数据以便高性能访问 • 细粒度安全保护数据 • 简便地数据管理