240 likes | 485 Views
Redbud File system. 清华大学高性能研究所 存储实验室. 1. 2. 3. 4. 高性能计算存储面临的挑战. 并行文件系统的发展. RedBud 并行文件系统关键技术. RFS 存储系统. Contents. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code.
E N D
Redbud File system 清华大学高性能研究所 存储实验室
1 2 3 4 高性能计算存储面临的挑战 并行文件系统的发展 RedBud并行文件系统关键技术 RFS存储系统 Contents Tsinghua University
client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code 客户端 client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code client code 厂商 B 厂商 C 厂商 A HPC 面临的难题 传统的 LINUX 群集使用NFS网络文件系统 x • 永无休止的性能需求 • 数据的一致性 • 空间开销不可预料 • 数据的可靠性 • 更高的性价比 • 大规模的存储管理 CPU 100% 磁盘满 硬件 故障 空闲 Mgmt x 数据丢失 性能要求为传统存储带来巨大压力 Tsinghua University
并行文件系统的发展 • 以NFS为代表的网络文件系统 • NFS的单服务器结构,数据流和控制流都要经过NFS server,逐渐不能满足高性能计算的要求 • 并行文件系统 • 一般采用带外的传输模式,分离数据流和控制流 • 客户端并行的访问存储设备,满足高性能计算 • 包含三种底层数据格式Block, File, Object • 许多文件系统的可用性并不高 • GFS扩展性不足 • HP、IBM、Panasas、EMC系统价格昂贵 • Lustre需要硬件或外部软件实现可靠性,管理和使用复杂 Tsinghua University
Redbud文件系统 SAN文件系统有效解决数据共享、文件共享,以及性能需求等问题: • 提供数据集中存储 • 文件系统中数据I/O 并发访问 Tsinghua University
RedBud并行文件系统 MDS LINUX 群集 IB SAN 统一命名空间, 条带化 高性能分布式文件系统 • 统一命名空间 • 可扩充的分布式文件系统 • 线性性能扩充 • SAN存储架构 FC SCSI IB Tsinghua University
Redbud 文件系统 (RFS) • 面向高性能计算优化的文件系统 • 单磁盘带宽利用率达到90% • 聚合带宽随客户端与存储设备的增长线性增长 • 高容量 • 单个存储组最大为16TB • RFS最大支持512PB的存储空间 • 支持SCSI存储协议 • 支持存储资源在线扩展 • 支持元数据的Journal保护 • 支持可配置的文件分布策略 • 统一名字空间 Tsinghua University
体系结构 • 带外存储架构,客户端直接访问存储设备 • RPC协议保证传输安全 • 使用高性能的存储设备优化元数据访问性能 Tsinghua University
Redbud • 客户端简介 • 提供文件系统访问的所有POSIX标准接口 • 具有优化的RPC通信 • 优化数据与元数据缓存,开发局部性 • 客户端直接以带外方式直接访问存储资源 • 预分配与预取 • 良好的恢复机制 • MDS简介 • 多线程、并发的内核服务器 • Layout的高效管理方法 • 针对元数据访问优化的元数据文件系统 • 文件系统快速恢复功能 • 高可用的资源管理算法 Tsinghua University
Redbud-配置 • 编译MDS • 编译Client • 加载MDS模块 • 格式化MDS磁盘 • 启动MDS元数据文件系统 • 启动MDS模块 • 使用ADDAG命令根据设置添加数据磁盘 • 加载Client端模块 • Mount客户端 Tsinghua University
关键技术 MDS集群 预分配 RFS并行文件系统技术亮点提供更好的性能 在线扩展技术 并行分配技术 多种网络支持 可配置分布策略 Tsinghua University
预分配技术 • 对大文件的大段连续空间的分配进行了优化,性能更好 • 提高元数据服务器访问性能,减少MDS成为热点的可能 • 预分配文件存储空间,减少碎片的产生,提高访问效率 提高了大文件的访问性能,并不影响小文件的访问性能 Tsinghua University
MDS自动迁移 • 当有MDS出现故障的时候,其他MDS自动接管其工作,实现自动任务迁移 x MDS MDS 向上透明,故障MDS实现自动无缝迁移 Tsinghua University
灵活的条带化配置 • 创建跨多个存储节点的条带化 • 提高大文件的读写性能 A (A1-6) MDS A1 A2 A3 A4 A5 A6 充分利用设备性能,达到数GB/s的访问 Tsinghua University
支持在线添加存储设备 • 对计算节点透明,不改变命名空间 • 优化负载均衡,防止新设备成为热点瓶颈 A (A1 A2。。A7) MDS B A1 A2 A3 A4 A5 A6 A7 B1 新存储和/或应用无需宕机时间,无缝启用 Tsinghua University
多种网络支持- InfiniBand 优势 • Traditional Model RDMA Kernel Bypass Model • Application • Application User User Sockets Layer Sockets Layer Kernel Kernel User Space Access (e.g. MPI, uDAPL) SDP TCP/IP Transport TCP/IP Transport IB Driver (Verbs i/f) IPoIB Driver RDMA i/f Hardware Hardware • RFS的控制路径存储路径都可以使用IB网络,只需要一套网络,减少成本,提高系统的可靠性。 • IB性能更高,更低的访问延迟,适合高性能计算。 Tsinghua University
并行分配技术 • 资源被分成多个AG(分配组)进行管理,MDS间使用分布式锁进行同步 • 多个MDS并行的进行空间分配,高效且保证一致性 MDS MDS MDS … AG AG AG AG AG B+树 B+树 sblk sblk sblk sblk sblk … 解决超大规模存储下性能下降和可靠性的问题 Tsinghua University
1 2 3 带外结构,提高数据访问的响应时间和性能;很高的单盘访问效率;随着客户端和存储设备线性增长的聚合性能;独有的并行分配技术,消除性能瓶颈 支持在线扩展技术; 独有的分配技术,防止新加入磁盘成为瓶颈 方便的文件分布策略设置,根据不同的需求设置优化的分布策略; 管理简单,自动优化 高性能 在线扩展 灵活的配置管理 RFS技术亮点 Tsinghua University
与其他典型分布式文件系统对比 与其他分布式文件系统相比,RFS提供更高的性价比,更好的性能,更方便的管理 Tsinghua University
应用方案 SAN + GE LINUX 群集 MDS SAN Switch iSCSI磁盘阵列 SATA-FC磁盘阵列 SCSI磁盘阵列 FC磁盘阵列 Tsinghua University
线性增长的聚合带宽 测试环境使用4G FC-SAN存储阵列,聚合带宽性能上限为430MB/s左右,图中可以看出,文件系统性能随客户端的增多,线性增长,当7个客户端时,达到设备性能上限。 Tsinghua University
和NFS、EXT3的对比 Redbud文件系统顺序写和随机写访问的吞吐率则分别比EXT3高出21.2%和15.4%,这是因为写过程中Redbud客户端采用R-ALPA机制 Redbud的子文件和目录创 建时间优于NFS Tsinghua University