190 likes | 371 Views
Hadoop 在京东的应用. 作者:唐红军 邮箱: tanghongjun@jd.com. 我的团队. 联系方式: cdrd-uhp@jd.com. 导航. 四纷 五落. - 历史状况. - 改进 - 第一代架构 - 挑战与解决方案. 众流 归海. - 变革 - 第二代架构 - 关键技术. 统一 分治. 历史状况. 现象 集群众多 规模小 版本不一 问题 资源不能合理分配 人力资源浪费 无法满足大数据对资源的要求. 导航. 四纷 五落. - 历史状况. - 改进 - 第一代架构 - 挑战与解决方案. 众流
E N D
Hadoop在京东的应用 作者:唐红军 邮箱:tanghongjun@jd.com
我的团队 联系方式:cdrd-uhp@jd.com
导航 四纷 五落 • -历史状况 • - 改进 • - 第一代架构 • -挑战与解决方案 众流 归海 • - 变革 • - 第二代架构 • -关键技术 统一 分治
历史状况 • 现象 • 集群众多 • 规模小 • 版本不一 • 问题 • 资源不能合理分配 • 人力资源浪费 • 无法满足大数据对资源的要求
导航 四纷 五落 • -历史状况 • - 改进 • - 第一代架构 • -挑战与解决方案 众流 归海 • - 变革 • - 第二代架构 • -关键技术 统一 分治
改进 • 现象 • 统一硬件 • 统一数据 • 统一人力 • 统一调度 • 目的 • 资源合理利用 • 节约成本 • 适应海量数据计算需求 • 提高效率
第一代架构 数据平台 搜索 推荐 仓储供应链 机器人 … hue 日志系统 统一监控 oozie 权限管理 impala hbase Mapred,hive,R,mahout HDFS 流式日志同步 sqoop
挑战- HDFS稳定性 • 问题 单namenode稳定性无法得到保障; 用户多、业务多平台异常损失影响大; • 解决方案
挑战- 无报警预警 • 问题 无法及时发现问题;无法预防问题的发生;无法了解运营数据。 • 解决方案 URL存活性监控 端口存活性监控 所有进程僵死监控 主服务可用性监控 新老生代容量变化 监控预警报警 任务运行阀值报警 运行耗时趋势预警 YOUNG与FULL GC时间/频率 监控 Hdfs数据上传耗时 阀值报警;hdfs上 传耗时趋势预警 Zookeeper所有操作 耗时阀值报警与 趋势预警 运行线程,最大线程 阀值报警线程趋势 预警 Hbase读写计算耗时 报警和趋势预警 hdfs写入/读取/操 作监控记录 任务输出/使用资 源/读取/运行时段
挑战- 无安全 • 问题 大量部门和小组接入平台,用户数据和任务安全问题突出。 • 解决 hive • 增加用户密码 • 增加服务端组验证 添加用户密码 改进库表权限控制 验证中心化 服务端 客户端 验证用户密码 用户 获取用户组 用户密码 验证用户和组
挑战- 效率 • Jobtracker • 网络调整 • smart scheduler • Reduce启动时间调整 • 推测执行规则修改 • Namenode • 提供主从可读 • 意向锁 • 修改checkpoint方式 • Datanode • 单机多datanode改造 • 增加读写锁 • 修改块汇报方式
导航 四纷 五落 • -历史状况 • - 改进 • - 第一代架构 • -挑战与解决方案 众流 归海 • - 变革 • - 第二代架构 • -关键技术 统一 分治
变革 • 现象 • 一个大集群 • 众多不同用途集群 • 统一的入口 • 不同类型数据处理框架集群共存 • 目的 • 运维自动化 • 资源合理利用 • 适应用户对新技术使用需求 • 提高人效和资源的利用率 数据处理平台和服务管理平台
第二代架构 用户 业务方 数据管理 资源管理 任务管理 报表管理 监控预警管理 数据 处理 平台 流失计算服务 实时计算服务 离线/批量计算服务 分布式数据库服务 海量存储服务 缓存服务 storm Hbase hadoop/Impala/spark mysql hbase/hdfs redis 数据库数据同步 日志数据同步 数据库数据 日志文本数据 数据源
第二代-Geminifs3.0 • 虚拟节点 • 每个虚拟节点代表原目录树空间中以此节点为根的子树 • 每个Namenode负责1个或多个虚拟节点所对应的子树 / k a z zx Namespace zxn a1 ax ka kk kz zn zz … … kn Namenode Namenode BlockManager BlockManager • Heartbeat • Block replicate check • Block management Storage knk knn knz Datanode Datanode Datanode Datanode
谢谢! Thank you! 唐红军 成都市武侯区武兴三路19号西部智谷D区39栋B座7层 T. 028-65057196 F. 028-65057196 E. tanghongjun@jd.com www.jd.com