280 likes | 395 Views
充分利用大数据. 凭借分析和存储解决方案,深入了解具有重大影响的业务. Yang Feng EMC 大中国区中端产品部技术经理. 大数据时代的横向扩展架构 VS 纵向扩展架构. 纵向扩展架构. Slower……………………………………………………………. TRAIN STOPS!!!!!!!!!!!!. 横向扩展架构. TRAIN KEEPS GOING!!. Faster……………………………………………………………. Isilon 典型架构. Windows. HDFS NFS, CIFS, FTP, HTTP. UNIX/LINUX.
E N D
充分利用大数据 凭借分析和存储解决方案,深入了解具有重大影响的业务 Yang Feng EMC大中国区中端产品部技术经理
大数据时代的横向扩展架构 VS 纵向扩展架构 纵向扩展架构 Slower……………………………………………………………. TRAIN STOPS!!!!!!!!!!!! 横向扩展架构 TRAIN KEEPS GOING!! Faster…………………………………………………………….
Isilon典型架构 Windows HDFS NFS, CIFS, FTP, HTTP UNIX/LINUX (optional 2nd switch for additional subnet) (optional 2nd switch for high availability) MAC 集群存储内部通讯 InfiniBand 层 客户端/应用端 层 标准的网络层 千兆/万兆 Isilon 集群存储 OneFS
EMCIsilon 横向扩展的集群存储产品 数据和元数据跨所有节点存放实现数据安全和性能提高 使用Infiniband进行群集内通信 支持单一文件系统最大到20PB(并且还在增长) S/X/NL 三种不同的硬件配置用于处理不同的工作负载 使用Isilon的操作系统和文件系统“OneFS” 具有NFS、CIFS、FTP、HTTP、HDFS等接口
IsilonHDFS接口 HDFS • Isilon支持从NameNode和DataNode到主机及元数据和数据的HDFS接口 • 底层文件系统是OneFS • 就像将HDFS客户端指向Isilon群集的DNS名称一样简单!
技术回顾 从属NameNode DataNode/TaskTracker JobTracker NameNode
NameNode • 1:主要功能提供名称查询服务,NameNode主要保存metadata信息; • 2:metadata信息包括:文件的权限,某一上传文件包含哪些Block块,Bolck块有保存在哪些DataNode上面; • 3:DataNode在启动时候也会上报block信息 • 4:NameNode的metadata信息在启动后会加载到内存 • 5:metadata中文件块存储记录如下 • file.txt = block1:DN1,DN3,DN6 block2:DN2,DN3,DN5 block3:DN1,DN3,DN4 • 解释:一个文件分成三个块,每个块分配到三个DataNode上面 • 6:NameNode对内容和I/O进行集中式管理,是个单点,发生故障容易集群崩溃,每个NameNode能够带动4000节点
从属NameNode • 1:主要工作保存namenode中对HDFS metadata的信息的备份 • 2:主要工作帮助NameNode合并edit log,减少NameNode的启动时间 • 3:不提供NameNode故障切换 • 是NameNode的冷备份 • 将本地保存的fsimage(镜像)导入; • 修改所有cluster的所有DN的master地址; • 修改所有client端NameNode地址;
JobTracker • 管理群集的所有作业 • 跟踪和报告作业和任务的状态 • 提供作业排队功能
DataNode/TaskTracker • 在本机主机操作系统文件系统(例如EXT3、ZFS)上存储文件的数据块 • 处理来自客户端的读/写请求 • 执行数据块创建、删除和复制 • 同一数据块可以存储在多个DataNode上以实现冗余 • Isilon本身只做HDFS部分,M/R部分在计算服务器上做。 • 在传统的Hadoop中这两部分是放在一起的,其实是可以分开的。这是最大不同
传统NameNode体系结构 未使用NameNode的自动化恢复=宕机 即使有Hadoop即将推出的NameNode故障切换,也需要手动恢复 NameNode 当NameNode“地图”丢失或损坏时,数据位置信息将不复存在 NameNode提供所有已存储的信息的位置详情
使用Isilon时的分布式(群集化)NameNode 元数据以与标准文件元数据相同的方式跨系统存储 跨大量节点实现内置的群集化冗余 NameNode 在Isilon上建立NameNode群集可实现Isilon已经提供的故障保护级别 群集化NameNode
之前 快照/版本控制 • 传统HDFS没有复制功能 • 无法拍摄数据快照 • 缺少版本控制 • 不是针对任务关键型环境而设计 之后 • 与SnapshotIQTM完全集成,可识别更改 • 多线程、多节点横向扩展复制 • 针对业务连续性改进了RPO/RTO • 跨不同地理位置复制的Hadoop!
传统的“无共享”Hadoop • 将您的所有数据拷贝到另一个存储平台需要多长时间? • 当您的主存储上的文件发生变更时,您如何保持数据一致性? • 串联的Hadoop(R=3)意味着需要5份数据拷贝(资金) • 数据必须先拷贝到Hadoop群集,然后分析才能开始(收效时间) 非结构化数据 1 现有主存储 分析终于能够开始 3 4 3 4 3 4 3 4 2 2 2 2 现有虚拟化数据中心 无共享Hadoop基础架构
“共享一切”的IsilonHadoop • 借助您环境中未被占用的处理资源和RAM,可立即开始使用Hadoop • 无需复制(使用现有数据) • 通过NAS和HDFS协议访问同一数据 • 使用现有数据即可实现极短的收效时间,无需使用拷贝,也不会浪费资金 非结构化数据 1 分析可以从第一个虚拟机开始 现有主存储 使用本地HDFS协议 现有虚拟化数据中心 新的Hadoop计算节点
传统HadoopHDFS 依赖式扩展 • 存储/计算比率固定 • 扩展计算意味着扩展容量 • 难以提供QoS • 计算的升级属于断代升级 所需的Hadoop群集节点 所需的性能/容量 存储 IsilonHDFS • 独立于存储扩展计算 • 即使在工作负载增长时也可实现最佳性能平衡 • 永远不需要迁移数据! • 随着硬件发展实现性能增长 计算
传统HadoopHDFS 独立式扩展 • 存储/计算比率固定 • 扩展计算意味着扩展容量 • 难以提供QoS • 计算的升级属于断代升级 所需的性能/容量 IsilonHDFS 存储 所需的Hadoop群集节点 • 独立于存储扩展计算 • 即使在工作负载增长时也可实现最佳性能平衡 • 永远不需要迁移数据! • 随着硬件发展实现性能增长 计算
之前 协议支持 • HDFS对Windows、Unix、Linux、Apple或任何其他本机文件系统不可见 • 大数据仅用于大数据 服务器 服务器 之后 • Isilon中固有的多协议支持允许随时随地访问包括Hadoop在内的所有文件系统 • 大数据是实际的数据! 服务器 服务器
收效时间 您是否曾经将100TB数据从主存储拷贝到Hadoop系统? 通过10GB链路将100TB数据从一个地方拷贝到另一个地方大约需要花多长时间? >24小时 现有主存储 现有主存储 读取相关数据进行分析 数据中心网络 数据中心网络 串联式Hadoop Hadoop处理节点 数据拷贝 分析 就地分析
益处和不足 不足 与在大多数连接到网络的资源中看到的一样,在实际Hadoop分析中的网络延迟会导致意料中的微小延迟 在90%的情况下会远远快于传统的Hadoop 益处 使用标准奇偶校验实现数据保护,无需复制数据 使用多种行业标准协议进行连接 • 数据可以更方便地进出 • 原始数据可以被多种应用程序共享 可以非常轻松地投入使用和管理 没有大多数标准HDFS的限制
在Isilon上的Hadoop方面学习的知识 Hadoop成本低廉 Hadoop易于部署 Hadoop可以使用现有数据 HadoopNameNode数据可受到保护 Hadoop数据的正常运行时间可获得保证 HDFS更适合用作协议而不是文件系统 Isilon修复了Hadoop的许多问题
Hands-on • 一段视频,在isilon HDFS上做wordcount • 8:19-11:24