MapReduce 简介

浙江大学计算机学院数字媒体 MapReduce简介贺争盛 2013 年 6月 23日星期日

Contents 1 · 目录一 数据 NCDC 1 分析数据方法 2 横向扩展 3

气象数据集 国家气候数据中心 National Climatic Data Center 半结构化面向对象面向行的ASCII格式存储我们重点讨论基本元素，如气温

分析数据方法 Unix Tools （awk） Hadoop

使用Unix Tools来分析数据 awk awk是一种优良的文本处理工具。任何环境中现有的功能最强大的数据处理引擎之一。扫描文件中的每一行，查找与命令行中所给定内容相匹配的模式。如果发现匹配内容，则进行下一个编程步骤。如果找不到匹配内容，则继续处理下一行。

使用Unix Tools来分析数据 awk 提取两个字段：气温和质量代码最大值比较替换运行42分钟（Hadoop 6分钟）并行运行划分块大小相同

使用Hadoop进行数据分析 Hadoop Map阶段 Reduce阶段 Map函数 Reduce函数 Mapreduce框架处理输入NCDC数据数据准备建立数据 Reduce函数进一步工作找出每年最高气温提取年份和气温

使用Hadoop进行数据分析 Hadoop

横向扩展 Scaling out MapReduce job:客户端要执行的一个工作单元，包括input data、mapreduce程序、配置信息。有两种节点控制job运行，一种是jobtracker，一种是tasktracker。 Jobtracker通过调度tasktracker协调所有工作的执行。Tasktracker运行任务并将报告发送给jobtracker，jobtracker记录所有工作的进度。如果一个任务失败，jobtracker再重新调度一个不同的tasktracker进行工作。

横向扩展 输入分片：Hadoop将输入划分成固定大小的块，这些块就叫splits。分块不能太大，也不能太小，一般是64MB，也就是HDFS默认的块大小。数据本地化优化:在存储有输入数据（HDFS中的数据）的节点上运行map任务，可以获得最佳性能。 Map将输出写到本地磁盘，没有写到HDFS中。只是中年结果，而非最终输出，作业完成后可被删除，不需要写入HDFS进行备份。

横向扩展 Reduce任务不具备数据本地化优势。单个reduce任务的输入通常来自所有mapper的输出。

横向扩展 Combiner 合并函数 Combiner将map出来的中间数据进行处理，减少网络传输量。

JAVA

Ruby

Python

THE END Life College of Science & Technology REPLAY

MapReduce 简介

MapReduce 简介

Presentation Transcript

powerpoint presentation

Powerpoint presentation

PPT Presentation

PowerPoint presentation

PowerPoint Presentation.

talk-ppt - PowerPoint Presentation

PowerPoint Presentation

Archivo PowerPoint 2003 ( ppt )

PowerPoint Presentation

PowerPoint Presentation

PowerPoint Presentation

PowerPoint Presentation

Full Service Moving Plano TX - PowerPoint PPT Presentation

IEinfosoft.Pvt.Ltd Powerpoint PPT Presentation.

1800 Drivers PPT - PowerPoint PPT Presentation

PPT (PowerPoint Presentation) Combat Pest Control

PPT PRESENTATION

Hybrid MLM Software - PowerPoint PPT Presentation

Best MLM Software - PowerPoint PPT Presentation

Affiliate Marketing Software - PowerPoint PPT Presentation

Student Information Management System - PowerPoint PPT Presentation

Swot Analysis Threat PPT PowerPoint Presentation Icon Mockup