1 / 28

充分利用大数据

充分利用大数据. 凭借分析和存储解决方案,深入了解具有重大影响的业务. Yang Feng EMC 大中国区中端产品部技术经理. 大数据时代的横向扩展架构 VS 纵向扩展架构. 纵向扩展架构. Slower……………………………………………………………. TRAIN STOPS!!!!!!!!!!!!. 横向扩展架构. TRAIN KEEPS GOING!!. Faster……………………………………………………………. Isilon 典型架构. Windows. HDFS NFS, CIFS, FTP, HTTP. UNIX/LINUX.

vera-turner
Download Presentation

充分利用大数据

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 充分利用大数据 凭借分析和存储解决方案,深入了解具有重大影响的业务 Yang Feng EMC大中国区中端产品部技术经理

  2. 大数据时代的横向扩展架构 VS 纵向扩展架构 纵向扩展架构 Slower……………………………………………………………. TRAIN STOPS!!!!!!!!!!!! 横向扩展架构 TRAIN KEEPS GOING!! Faster…………………………………………………………….

  3. Isilon典型架构 Windows HDFS NFS, CIFS, FTP, HTTP UNIX/LINUX (optional 2nd switch for additional subnet) (optional 2nd switch for high availability) MAC 集群存储内部通讯 InfiniBand 层 客户端/应用端 层 标准的网络层 千兆/万兆 Isilon 集群存储 OneFS

  4. EMCIsilon 横向扩展的集群存储产品 数据和元数据跨所有节点存放实现数据安全和性能提高 使用Infiniband进行群集内通信 支持单一文件系统最大到20PB(并且还在增长) S/X/NL 三种不同的硬件配置用于处理不同的工作负载 使用Isilon的操作系统和文件系统“OneFS” 具有NFS、CIFS、FTP、HTTP、HDFS等接口

  5. IsilonHDFS接口 HDFS • Isilon支持从NameNode和DataNode到主机及元数据和数据的HDFS接口 • 底层文件系统是OneFS • 就像将HDFS客户端指向Isilon群集的DNS名称一样简单!

  6. Hadoop配置文件

  7. 传统hadoop

  8. 技术回顾 从属NameNode DataNode/TaskTracker JobTracker NameNode

  9. NameNode • 1:主要功能提供名称查询服务,NameNode主要保存metadata信息; • 2:metadata信息包括:文件的权限,某一上传文件包含哪些Block块,Bolck块有保存在哪些DataNode上面; • 3:DataNode在启动时候也会上报block信息 • 4:NameNode的metadata信息在启动后会加载到内存 • 5:metadata中文件块存储记录如下 • file.txt = block1:DN1,DN3,DN6   block2:DN2,DN3,DN5   block3:DN1,DN3,DN4 • 解释:一个文件分成三个块,每个块分配到三个DataNode上面 • 6:NameNode对内容和I/O进行集中式管理,是个单点,发生故障容易集群崩溃,每个NameNode能够带动4000节点

  10. 从属NameNode • 1:主要工作保存namenode中对HDFS metadata的信息的备份 • 2:主要工作帮助NameNode合并edit log,减少NameNode的启动时间 • 3:不提供NameNode故障切换 • 是NameNode的冷备份 • 将本地保存的fsimage(镜像)导入; • 修改所有cluster的所有DN的master地址; • 修改所有client端NameNode地址;

  11. JobTracker • 管理群集的所有作业 • 跟踪和报告作业和任务的状态 • 提供作业排队功能

  12. DataNode/TaskTracker • 在本机主机操作系统文件系统(例如EXT3、ZFS)上存储文件的数据块 • 处理来自客户端的读/写请求 • 执行数据块创建、删除和复制 • 同一数据块可以存储在多个DataNode上以实现冗余 • Isilon本身只做HDFS部分,M/R部分在计算服务器上做。 • 在传统的Hadoop中这两部分是放在一起的,其实是可以分开的。这是最大不同

  13. 传统Hadoop+isilon HDFS

  14. 传统NameNode体系结构 未使用NameNode的自动化恢复=宕机 即使有Hadoop即将推出的NameNode故障切换,也需要手动恢复 NameNode 当NameNode“地图”丢失或损坏时,数据位置信息将不复存在 NameNode提供所有已存储的信息的位置详情

  15. 使用Isilon时的分布式(群集化)NameNode 元数据以与标准文件元数据相同的方式跨系统存储 跨大量节点实现内置的群集化冗余 NameNode 在Isilon上建立NameNode群集可实现Isilon已经提供的故障保护级别 群集化NameNode

  16. Hadoop配置文件

  17. 之前 快照/版本控制 • 传统HDFS没有复制功能 • 无法拍摄数据快照 • 缺少版本控制 • 不是针对任务关键型环境而设计 之后 • 与SnapshotIQTM完全集成,可识别更改 • 多线程、多节点横向扩展复制 • 针对业务连续性改进了RPO/RTO • 跨不同地理位置复制的Hadoop!

  18. 传统的“无共享”Hadoop • 将您的所有数据拷贝到另一个存储平台需要多长时间? • 当您的主存储上的文件发生变更时,您如何保持数据一致性? • 串联的Hadoop(R=3)意味着需要5份数据拷贝(资金) • 数据必须先拷贝到Hadoop群集,然后分析才能开始(收效时间) 非结构化数据 1 现有主存储 分析终于能够开始 3 4 3 4 3 4 3 4 2 2 2 2 现有虚拟化数据中心 无共享Hadoop基础架构

  19. “共享一切”的IsilonHadoop • 借助您环境中未被占用的处理资源和RAM,可立即开始使用Hadoop • 无需复制(使用现有数据) • 通过NAS和HDFS协议访问同一数据 • 使用现有数据即可实现极短的收效时间,无需使用拷贝,也不会浪费资金 非结构化数据 1 分析可以从第一个虚拟机开始 现有主存储 使用本地HDFS协议 现有虚拟化数据中心 新的Hadoop计算节点

  20. 传统HadoopHDFS 依赖式扩展 • 存储/计算比率固定 • 扩展计算意味着扩展容量 • 难以提供QoS • 计算的升级属于断代升级 所需的Hadoop群集节点 所需的性能/容量 存储 IsilonHDFS • 独立于存储扩展计算 • 即使在工作负载增长时也可实现最佳性能平衡 • 永远不需要迁移数据! • 随着硬件发展实现性能增长 计算

  21. 传统HadoopHDFS 独立式扩展 • 存储/计算比率固定 • 扩展计算意味着扩展容量 • 难以提供QoS • 计算的升级属于断代升级 所需的性能/容量 IsilonHDFS 存储 所需的Hadoop群集节点 • 独立于存储扩展计算 • 即使在工作负载增长时也可实现最佳性能平衡 • 永远不需要迁移数据! • 随着硬件发展实现性能增长 计算

  22. 之前 协议支持 • HDFS对Windows、Unix、Linux、Apple或任何其他本机文件系统不可见 • 大数据仅用于大数据 服务器 服务器 之后 • Isilon中固有的多协议支持允许随时随地访问包括Hadoop在内的所有文件系统 • 大数据是实际的数据! 服务器 服务器

  23. 收效时间 您是否曾经将100TB数据从主存储拷贝到Hadoop系统? 通过10GB链路将100TB数据从一个地方拷贝到另一个地方大约需要花多长时间? >24小时 现有主存储 现有主存储 读取相关数据进行分析 数据中心网络 数据中心网络 串联式Hadoop Hadoop处理节点 数据拷贝 分析 就地分析

  24. 益处和不足 不足 与在大多数连接到网络的资源中看到的一样,在实际Hadoop分析中的网络延迟会导致意料中的微小延迟 在90%的情况下会远远快于传统的Hadoop 益处 使用标准奇偶校验实现数据保护,无需复制数据 使用多种行业标准协议进行连接 • 数据可以更方便地进出 • 原始数据可以被多种应用程序共享 可以非常轻松地投入使用和管理 没有大多数标准HDFS的限制

  25. 在Isilon上的Hadoop方面学习的知识 Hadoop成本低廉 Hadoop易于部署 Hadoop可以使用现有数据 HadoopNameNode数据可受到保护 Hadoop数据的正常运行时间可获得保证 HDFS更适合用作协议而不是文件系统 Isilon修复了Hadoop的许多问题

  26. Hands-on • 一段视频,在isilon HDFS上做wordcount • 8:19-11:24

More Related