220 likes | 559 Views
Oracle Big Data Connectors:Hadoop 与 Oracle 数据库的高性能集成. Marty Gubar Oracle 大数据产品管理部. 本讲座的目标. 介绍 Oracle Big Data Connectors 了解它们如何在 Oracle 数据库与 Oracle 大数据机之间实现高性能的连接 了解 Connectors 的实际应用!. Oracle 大数据平台. 可视化与决策. 组织与发现. 数据流. 获取. 分析. Oracle 大数据平台. Hadoop. Oracle 数据库.
E N D
Oracle Big Data Connectors:Hadoop 与 Oracle 数据库的高性能集成 Marty Gubar Oracle 大数据产品管理部
本讲座的目标 • 介绍 Oracle Big Data Connectors • 了解它们如何在 Oracle 数据库与 Oracle 大数据机之间实现高性能的连接 • 了解 Connectors 的实际应用!
Oracle 大数据平台 可视化与决策 组织与发现 数据流 获取 分析
Oracle 大数据平台 Hadoop Oracle 数据库 Oracle Big Data Connectors
Oracle Big Data Connectors 组件 • Oracle SQL Connector for HDFS • Oracle Loader for Hadoop • Oracle R Connector for Hadoop • Oracle Data Integrator Application Adapters for Hadoop
什么是 HDFS? 以 Hadoop为底层的主存储系统 容错能力强、可扩展且可用性高 其设计非常适合于分布式处理 结构简单,与 UNIX 文件系统类似 大数据机 HDFS
什么是 Hive? 提供文件结构 元数据描述表/列 HiveQL提供基本的 SQL 数据访问 Hive 将 HiveQL查询转换为MapReduce作业 大数据机 HDFS CREATE EXTERNAL TABLE myTable ( movieId STRING, hits INT ) ROW FORMAT DELIMITED… SELECT movieId, sum(hits)FROM myTable GROUP BY movieId
Oracle SQL Connector for HDFS 使用 Oracle 外部表访问 Hive 表和 HDFS 文件 自动设置访问 连接两个一体机的数据 并行访问或加载数据 Hadoop Oracle 数据库 SQL 查询 外部表 OSCH ODCH ODCH
性能对比 Fuse DFS 加载速度对比 CPU 使用率对比
主要优点 • 能够从 Oracle 数据库访问 HDFS 数据文件,这一点十分独特 • 性能 • 从 Oracle 大数据机到 Oracle Exadata 的数据加载速度达到 12 TB/小时 • 与同类第三方产品相比,速度快 5-20 倍 • 对于 Oracle DBA 和 Hadoop 开发人员来说,易于使用 • 由 Oracle 开发并提供支持
Oracle Loader for Hadoop 从数据库读取目标表元数据 从reducer节点连接到数据库,并行(JDBC或直接路径)加载到数据库分区 Oracle Loader for Hadoop 分区、分类并转换为在Hadoop上支持的 Oracle 数据类型 Shuffle /Sort 将数据预处理从数据库服务器分流至Hadoop 支持多种输入数据格式 解决输入数据倾斜问题,以最大限度地提高性能 在线和离线模式(离线:在 HDFS 上创建 Oracle 数据泵文件) 映射 Reduce MAP Reduce MAP MAP Shuffle /Sort Reduce MAP Reduce MAP Reduce
自动解决输入数据倾斜问题 • 在reduce任务之间平均分配负载 • 所有reducers的工作量大体相同 • 避免因reducer负载不平衡而导致速度减慢 • 最大程度地提高性能 • 对数据进行采样,以确定map的输出key的最佳分区 实现Reducers的负载平衡
性能对比 第三方产品 加载速度对比 CPU 使用率对比
主要优点 • 直接从 HDFS、Hive 表……加载到 Oracle 数据库,而无需暂存文件 • 性能 • 与同类第三方产品相比,速度快 10 倍 • 将数据库服务器处理分流到 Hadoop • 尽量降低对生产应用程序的性能 SLA 的影响 • 对于 Oracle DBA 和 Hadoop 开发人员来说,易于使用 • 由 Oracle 开发并提供支持
利用两个 Connector 使用 Oracle SQL Connector of HDFS 查询 HDFS 中的 Oracle 数据泵文件(若需要则加载)。 脱机加载:在 HDFS 中将数据以 Oracle 数据泵格式进行预处理和写入。 Oracle SQL Connector for HDFS Oracle Loader for Hadoop Shuffle/Sort MAP 化简 MAP SQL 查询 化简 MAP 外部表 HDFS 客户端 OSCH MAP Shuffle/Sort 化简 ODCH ODCH MAP 化简 Oracle 数据库 MAP 化简
有关更多信息 请在 OTN 上搜索…… • 大数据 • 数据仓储博客 • Oracle 大数据交互式电子书 • Oracle 大数据 YouTube 视频