1 / 16

MapReduce 简介

浙江大学计算机学院数字媒体. MapReduce 简介. 贺争盛. 2013 年 6 月 23 日 星期日. Contents 1 · 目录 一. 数据 NCDC. 1. 分析数据 方法. 2. 横向扩展. 3. 气象数据集. 国家气候数据中心. National Climatic Data Center. 半结构化面向对象. 面向行的 ASCII 格式存储. 我们重点讨论基本元素,如气温. 分析数据方法. Unix Tools ( awk ). Hadoop. 使用 Unix Tools 来分析数据. awk.

armina
Télécharger la présentation

MapReduce 简介

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 浙江大学计算机学院数字媒体 MapReduce简介 贺争盛 2013 年 6月 23日 星期日

  2. Contents 1 · 目录一 数据 NCDC 1 分析数据方法 2 横向扩展 3

  3. 气象数据集 国家气候数据中心 National Climatic Data Center 半结构化面向对象 面向行的ASCII格式存储 我们重点讨论基本元素,如气温

  4. 分析数据方法 Unix Tools (awk) Hadoop

  5. 使用Unix Tools来分析数据 awk awk是一种优良的文本处理工具。任何环境中现有的功能最强大的数据处理引擎之一。扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行。

  6. 使用Unix Tools来分析数据 awk 提取两个字段:气温和质量代码 最大值比较 替换 运行42分钟 (Hadoop 6分钟) 并行运行 划分块 大小相同

  7. 使用Hadoop进行数据分析 Hadoop Map阶段 Reduce阶段 Map函数 Reduce函数 Mapreduce框架处理 输入NCDC数据 数据准备 建立数据 Reduce函数进一步工作 找出每年最高气温 提取年份和气温

  8. 使用Hadoop进行数据分析 Hadoop

  9. 横向扩展 Scaling out MapReduce job:客户端要执行的一个工作单元,包括input data、mapreduce程序、配置信息。 有两种节点控制job运行,一种是jobtracker,一种是tasktracker。 Jobtracker通过调度tasktracker协调所有工作的执行。Tasktracker运行任务并将报告发送给jobtracker,jobtracker记录所有工作的进度。如果一个任务失败,jobtracker再重新调度一个不同的tasktracker进行工作。

  10. 横向扩展 输入分片:Hadoop将输入划分成固定大小的块,这些块就叫splits。分块不能太大,也不能太小,一般是64MB,也就是HDFS默认的块大小。 数据本地化优化:在存储有输入数据(HDFS中的数据)的节点上运行map任务,可以获得最佳性能。 Map将输出写到本地磁盘,没有写到HDFS中。 只是中年结果,而非最终输出,作业完成后可被删除,不需要写入HDFS进行备份。

  11. 横向扩展 Reduce任务不具备数据本地化优势。 单个reduce任务的输入通常来自所有mapper的输出。

  12. 横向扩展 Combiner 合并函数 Combiner将map出来的中间数据进行处理,减少网络传输量。

  13. JAVA

  14. Ruby

  15. Python

  16. THE END Life College of Science & Technology REPLAY

More Related