1 / 21

从零 开始搭建大数据平台

从零 开始搭建大数据平台. 白德鑫 @ leoobai. 屌丝的数据分析 土豪要和屌丝做朋友 屌 丝 的 进化 屌 丝变土豪. 摘要. 构建电视分析数据平台. 本案例是在为 在为超级电视及乐视盒子数据提供用户行为的数据分析及挖掘服务而启动的数据平台项目的过程和经验分享 。 对超级电视的用户行为数据进行实时和离线分析,为运营提供决策支持 。 通过对电视数据挖掘来进行系统优化和服务提升。. 白德鑫 来自乐视网 TV 开放平台事业部

abel-abbott
Download Presentation

从零 开始搭建大数据平台

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 从零开始搭建大数据平台 白德鑫 @leoobai

  2. 屌丝的数据分析 土豪要和屌丝做朋友 屌丝的进化 屌丝变土豪 摘要

  3. 构建电视分析数据平台 本案例是在为在为超级电视及乐视盒子数据提供用户行为的数据分析及挖掘服务而启动的数据平台项目的过程和经验分享。 对超级电视的用户行为数据进行实时和离线分析,为运营提供决策支持。 通过对电视数据挖掘来进行系统优化和服务提升。

  4. 白德鑫 来自乐视网TV开放平台事业部 历经电信、游戏、互联网三个行业,互联网电视拓荒者,目前负责乐视网超级电视运营平台、LetvStore、TV数据挖掘分析平台、TV开放平台项目建设。 微博:@leoobai G粉,钓鱼迷和摩托迷

  5. 屌丝如何成为糕富帅 • 苦逼屌丝配置两台MySQL(主从)记录日志,通过CronJob加上SQL方式在Slave进行统计分析 • 发奋图强的屌丝尝试使用Cassandra将日志存储,使用Hadoop进行计算,然后把结果塞到MySQL里 • 太多的数据组合,屌丝尝试使用MySQL集群加上Kettle进行统计分析 • 鸟枪换炮屌丝开始使用大规模杀伤性武器Kafka、Storm、Hadoop、Hbase、Hive、Oozie、Sqoop

  6. 数据 • NoSQL阶段 • 存储靠Cassandra • 任务采用Hadoop • 计算使用M/R • 需求基本很简单 • Hadoop阶段 • Hadoop生态进行离线计算 • Kafka进行数据收集 • Storm进行实时计算 • Hadoop周边小工具 • MySQL阶段 • 存储靠MySQL • 任务靠CronJob • 统计靠手写SQL • 展现基本很简单 • Kettle阶段 • 大量中间数据采用MySql集群 • 使用Kettle对数据进行抽取加工 需求

  7. 苦逼屌丝的数据起点

  8. 数据越来越大,需求越来越多,土豪上门了

  9. 人员离职造成系统失控,Cassandra没人维护了 • 人员离职对系统影响很大 • 不一定时刻都有合适的人接替 • 招聘成本很高,因为有技术的土豪都不愿意和屌丝做朋友 • 人员流失往往带来技术的流失 • 一个萝卜一个坑,萝卜走了坑要很久才能填上

  10. 重回屌丝时代

  11. 土豪和我们做朋友了 • 数据量从年初的3个月翻一倍到目前每个月翻一倍 • 数据每月一亿条增长到每周一亿条只用了半年不到 • 超级电视及盒子的快速增长引起需求快速变化,从设备行为快速向用户行为转变 • 一边找土豪一边增强自身能力 • 为此成立了独立的数据研发团队及数据分析人员 • 从年初我们也开始了鸟枪换炮的工作

  12. 增强内功 • 数据研发团队通过将近半年的努力,逐步搭建并完善了新的平台 • 新平台通过Kafka接收其他系统、超级电视、乐视盒子等业务数据、日志数据、以及其他元数据(包括内容、应用)然后整合加工 • Storme通过整合Kafka加工之后的数据存入MySQL及Hbase中去 • 通过Hadoop及数据服务为AD-HOC、开放数据平台、数据门户对各个业务部门提供数据服务 • 这些是人才依靠招聘和内部自荐的方式进行扩充

  13. 屌丝的豪华七件套

  14. 数据入门第一套 测试服务器 两台4core cpu, 6G memory,20个线程

  15. 数据入门第一套 测试服务器 1台4core cpu, 6G memory,20个线程

  16. 数据入门第一套 测试服务器 1台4core cpu, 6G memory,20个线程

  17. 数据入门第二套 Storm 集群 Spout Bolt WriterBolt ParserBolt Spout Bolt WriterBolt ParserBolt Cbase … … … … … Spout Bolt WriterBolt ParserBolt 组合计算 Kafka消息随机

  18. 数据入门第三套

  19. 案例ROI分析 数据量每月基本翻一倍,原有的系统架构根本无法满足新的数据需求 Kettle方式的数据整合时间越来越久 采用Hadoop+Storm等方案,数据量增长不会对数据挖掘产生特别大的影响。 数据从原来每日抽取报表到实时数据随意查询整合 还有很多事情要做

  20. 案例启示 不同的阶段选择不同的方案 人员流失会导致技术流失 技术储备和内部自荐要比招聘牛人更快 对于新业务新平台都要小心对待,否则出现问题很难解决 数据安全很重要,重要数据需要提供多份备份 服务器多了就是爽。

More Related