1 / 20

大数 据的虚拟化之路

大数 据的虚拟化之路. 张锦波 张君迟 大数据解决方案专家 大数据解决方案项目经理. 大数 据的发展趋势. 非结构化数据的爆发增长. Hadoop 项目 实 施. Hadoop Summit 2013 – Hadoop -Entering Phase Two by Gartner.

Download Presentation

大数 据的虚拟化之路

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大数据的虚拟化之路 张锦波 张君迟 大数据解决方案专家 大数据解决方案项目经理

  2. 大数据的发展趋势 非结构化数据的爆发增长 Hadoop项目实施 Hadoop Summit 2013 – Hadoop-Entering Phase Two by Gartner • 非结构化数据的爆发式增长,Hadoop的持续发展驱使CIO们重新思考企业的数据战略 • Gartner 预测未来3年数据增长超过+800% • 使用Hadoop高效低成本地处理大数据是CIO极为看重的价值

  3. 企业内部的大数据之旅 • 阶段3: 云分析平台 • 为许多部门服务 • 经常支持一部分关键任务流程 • 与分析及BI工具完全整合 高度整合 • 阶段2: 生产环境引入Hadoop • 为多个部门服务 • 更多使用用例 • 核心Hadoop和其他相关生态系统软件 • 成百个节点的典型规模 • 不断增加的集群规模和节点大小 • 阶段1: Hadoop试点 • 经常从业务线开始 • 使用1-2个用例验证Hadoop价值 • 典型应用一般在20个节点以下 单一集群 集群规模 20 300 0 node

  4. Hadoop在虚拟化平台上运行良好 Source: http://www.vmware.com/files/pdf/vmware-virtualizing-apache-hadoop.pdf

  5. 企业应用大数据的挑战 • 入门难度大,学习成本高 • 物理环境下,手工部署和维护太复杂 • 很难进行资源使用量的规划 • 主节点有单点失败问题

  6. VMware的Big Data 解决方案

  7. Serengeti 发布历史 Serengeti M1 6/2012 Serengeti M2 8/2012 Serengeti M3 10/2012 Serengeti M4 4/2013 • 10分钟部署Hadoop • 高可用性 • 一站式使用Hadoop • 配置Hadoop • 计算能力弹性伸缩 • 机架感知 • 节点布局 • 磁盘排布 • HBase • CDH4 • MapR • 性能改进

  8. Big Data Extensions 1.0 Beta的新功能 • 可视化操作界面 • 自动弹性伸缩 • 支持YARN • 支持各发行版的最新版本 • 节点计算存储资源的一键式调整 • 磁盘故障恢复 • 用户可定制节点的操作系统

  9. 安全性 可靠性 灵活性 多租户 弹性伸缩 Big Data Extensions Beta 主要优势 • 多租户 • 硬件资源整合 • 自动化弹性伸缩资源 • 一键式HA和FT • 虚拟机级别隔离 • 快速部署 • 操作便捷 • 用户可定制 • 性能优化

  10. 虚拟化让Hadoop运维比物理环境灵活便捷有效! • 减少CapEx • 减少OpEx • 高效

  11. Demo 详见Demo视频窗口

  12. 安全性 可靠性 灵活性 多租户 弹性伸缩 Big Data Extensions Beta 主要优势 • 多租户 • 硬件资源整合 • 自动化弹性伸缩资源 • 一键式HA和FT • 虚拟机级别隔离 • 快速部署 • 操作便捷 • 用户可定制 • 性能优化

  13. 共享通用数据大规模降低CAPEX采购成本 Hadoop (MapReduce) MapReduce MapReduce MapReduce MapReduce Common Data Unique Data Common Data Hadoop (MapReduce) Hadoop Cluster 1 Common Data Unique Data • 没有虚拟化,每个独立Hadoop集群都需要一份通用数据拷贝! • 虚拟化: • 一份HDFS为多个计算集群提供服务,同时不会丢失数据本地性(data locality) • 一份通用数据无需额外的存储硬件和磁盘 • 3:2整合比率 Hadoop Cluster 2 Hadoop (MapReduce) Unique Data Common Data Hadoop (MapReduce) Hadoop Cluster 3 Common Data Unique Data Hadoop Cluster 4

  14. 动态伸缩Hadoop • 不同租户部署各自的计算集群,共享HDFS • 根据优先级和可用资源动态Commission/decommission TaskTrackers Production recommendation engine Job Tracker Job Tracker Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute VM Compute layer Ad hoc data mining Production recommendation engine Ad hoc data mining Dynamic resourcepool Host Host Host Host Host Host HDFS Data layer Virtualization platform

  15. Demo 详见Demo视频窗口

  16. 安全性 可靠性 灵活性 多租户 弹性伸缩 Big Data Extensions Beta 主要优势 • 多租户 • 硬件资源整合 • 自动化弹性伸缩资源 • 一键式HA和FT • 虚拟机级别隔离 • 快速部署 • 操作便捷 • 用户可定制 • 性能优化

  17. 虚拟化是最好的整合方案!

  18. 安全性 可靠性 灵活性 多租户 弹性伸缩 总结 • 多租户 • 硬件资源整合 • 自动化弹性伸缩资源 • 一键式HA和FT • 虚拟机级别隔离 • 快速部署 • 操作便捷 • 用户可定制 • 性能优化

  19. BDE客户体验计划 欢迎加入Big Data Extensions 1.0 (Beta)客户体验计划, 率先走向大数据虚拟化之路! bigdata_apac@vmware.com

  20. 相关资源 • 大数据门户:www.vmware.com/hadoop • Serengeti项目网站:www.projectserengeti.org • Big Data Extensionss 1.0 Beta(Serengeti M5)下载,BDE用户文档,和BDE Beta社区和技术支持 • 白皮书 • 虚拟化Hadoop的好处 • Hadoop虚拟化性能白皮书 • Hadoop虚拟化HA解决方案 • Hadoop虚拟化FT解决方案 • Serengeti开源社区技术支持 • 中文技术博客: http://vBigData.blog.51cto.com

More Related