160 likes | 302 Views
浙江大学计算机学院数字媒体. MapReduce 简介. 贺争盛. 2013 年 6 月 23 日 星期日. Contents 1 · 目录 一. 数据 NCDC. 1. 分析数据 方法. 2. 横向扩展. 3. 气象数据集. 国家气候数据中心. National Climatic Data Center. 半结构化面向对象. 面向行的 ASCII 格式存储. 我们重点讨论基本元素,如气温. 分析数据方法. Unix Tools ( awk ). Hadoop. 使用 Unix Tools 来分析数据. awk.
E N D
浙江大学计算机学院数字媒体 MapReduce简介 贺争盛 2013 年 6月 23日 星期日
Contents 1 · 目录一 数据 NCDC 1 分析数据方法 2 横向扩展 3
气象数据集 国家气候数据中心 National Climatic Data Center 半结构化面向对象 面向行的ASCII格式存储 我们重点讨论基本元素,如气温
分析数据方法 Unix Tools (awk) Hadoop
使用Unix Tools来分析数据 awk awk是一种优良的文本处理工具。任何环境中现有的功能最强大的数据处理引擎之一。扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行。
使用Unix Tools来分析数据 awk 提取两个字段:气温和质量代码 最大值比较 替换 运行42分钟 (Hadoop 6分钟) 并行运行 划分块 大小相同
使用Hadoop进行数据分析 Hadoop Map阶段 Reduce阶段 Map函数 Reduce函数 Mapreduce框架处理 输入NCDC数据 数据准备 建立数据 Reduce函数进一步工作 找出每年最高气温 提取年份和气温
使用Hadoop进行数据分析 Hadoop
横向扩展 Scaling out MapReduce job:客户端要执行的一个工作单元,包括input data、mapreduce程序、配置信息。 有两种节点控制job运行,一种是jobtracker,一种是tasktracker。 Jobtracker通过调度tasktracker协调所有工作的执行。Tasktracker运行任务并将报告发送给jobtracker,jobtracker记录所有工作的进度。如果一个任务失败,jobtracker再重新调度一个不同的tasktracker进行工作。
横向扩展 输入分片:Hadoop将输入划分成固定大小的块,这些块就叫splits。分块不能太大,也不能太小,一般是64MB,也就是HDFS默认的块大小。 数据本地化优化:在存储有输入数据(HDFS中的数据)的节点上运行map任务,可以获得最佳性能。 Map将输出写到本地磁盘,没有写到HDFS中。 只是中年结果,而非最终输出,作业完成后可被删除,不需要写入HDFS进行备份。
横向扩展 Reduce任务不具备数据本地化优势。 单个reduce任务的输入通常来自所有mapper的输出。
横向扩展 Combiner 合并函数 Combiner将map出来的中间数据进行处理,减少网络传输量。
THE END Life College of Science & Technology REPLAY