Hadoop 之 MapReduce-PySuper

思想

先分再合，分而治之

把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分

然后逐个解决，分别找出各部分的结果，然后把各部分的结果组成整个问题的最终结果

Map（拆分）：把复杂的任务分解为若干个简单的子任务来并行处理（小任务彼此没有依赖，可以并行计算）

Reduce（合并）：对Map阶段的结果进行全局汇总

设计构思

MapReduce的思想很好理解，关键在于如何基于这个思想设计出一款分布式计算程序？

下面看看Hadoop团队针对MapReduce的设计构思是怎样的？这决定了你将如何使用MapReduce？

大数据处理

互相间不具有计算依赖关系的大数据计算任务，采用MapReduce分而治之策略
Map阶段拆分成若干份小数据，并行计算；在Reduce阶段，汇总并行计算的结果
不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算

抽象编程模型

MapReduce借鉴了函数式语言中的思想，用Map和Reduce两个函数提供了高层的并行编程抽象模型
- map: 对一组数据元素进行某种重复式的处理
- reduce: 对Map的中间结果进行某种进一步的结果整理
MapReduce中定义了如下的Map和Reduce两个抽象的编程接口，由用户去编程实现:
- map: (k1; v1) → (k2; v2)
- reduce: (k2; [v2]) → (k3; v3)
通过以上两个编程接口，可以看出MapReduce处理的数据类型是<key,value>键值对

统一架构、隐藏底层细节

设计并提供了统一的计算框架，为程序员隐藏了绝大多数系统层面的处理细节
亮点
- 通过抽象模型和计算框架把需要做什么与具体怎么做分开了
- 为程序员提供一个抽象和高层的编程接口和框架
- 程序员仅需要关心其应用层的具体计算问题，仅需编写少量的处理应用本身计算问题的业务程序代码
至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来，交给计算框架去处理
- 从分布代码的执行
- 到大到数千小到单个节点集群的自动调度使用。

MapReduce

分布式计算

一种计算方法，和集中式计算是相对的
将大应用分解成许多小的部分，分配给多台计算机进行处理
节约整体计算时间，大大提高计算效率

概念

一个分布式计算框架，用于轻松编写分布式应用程序
这些程序以可靠、容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）
一种面向海量数据处理的一种指导思想，也是一种用于对大规模数据进行分布式计算的编程模型

优点

易于编程

提供了拥有二次开发的接口

简单地实现一些接口，就可以完成一个分布式程序

计算任务交给计算框架去处理，将分布式程序部署到hadoop集群上运行，集群节点可以扩展到成百上千个

良好的扩展性

当计算机资源不能得到满足的时候，可以通过增加机器来扩展它的计算能力

MapReduce的分布式计算可以随节点数目增长，保持近似于线性增长（MapReduce处理海量数据的关键）

通过将计算节点增加到几百几千，可以很容易地处理数百TB甚至PB级别的数据

高容错性

Hadoop集群是分布式搭建和部署的，任何单一机器节点宕机了，它可以把上面的计算任务转移到另一个节点上运行

不影响整个作业任务的完成，过程完全是由Hadoop内部完成的

适合海量数据的离线处理

可以处理GB、TB和PB级别得数据量

缺点

不代表不能做，而是在有些场景下实现的效果比较差，并不适合用MapReduce来处理

实时计算性能差：
- MapReduce主要应用于离线作业，无法作到秒级或者是亚秒级得数据响应
不能进行流式计算：
- 流式计算特点是数据是源源不断得计算，并且数据是动态的
- 而MapReduce作为一个离线计算框架，主要是针对静态数据集的，数据是不能动态变化的

实例进程

一个完整的MapReduce程序在分布式运行时有三类

MRAppMaster：负责整个MR程序的过程调度及状态协调
MapTask：负责map阶段的整个数据处理流程
ReduceTask：负责reduce阶段的整个数据处理流程

阶段组成

一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段，或者只有Map阶段

不能有诸如多个map阶段、多个reduce阶段的情景出现

如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序串行运行

数据类型

整个MapReduce程序中，数据都是以k-v键值对的形式流转的

在实际编程解决各种业务问题中，需要考虑每个阶段的输入输出kv分别是什么
MapReduce内置了很多默认属性，比如排序、分组等，都和数据的k有关，所以说kv的类型数据确定及其重要的

WordCount

map阶段的核心：把输入的数据经过切割，全部标记1，因此输出就是<单词，1>
shuffle阶段核心：经过MR程序内部自带默认的排序分组等功能，把key相同的单词会作为一组数据构成新的kv对
reduce阶段核心：
- 处理shuffle完的一组数据，该组数据就是该单词所有的键值对
- 对所有的1进行累加求和，就是单词的总次数

Map阶段

第一阶段
- 把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划
- 默认Split size = Block size（128M），每一个切片由一个MapTask处理（getSplits）
第二阶段
- 对切片中的数据按照一定的规则读取解析返回<key,value>对
- 默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容（TextInputFormat）
第三阶段
- 调用Mapper类中的map方法处理数据
- 每读取解析出来的一个<key,value> ，调用一次map方法
第四阶段
- 按照一定的规则对Map输出的键值对进行分区partition
- 默认不分区，因为只有一个reducetask
- 分区的数量就是reducetask运行的数量
第五阶段
- Map输出数据写入内存缓冲区，达到比例溢出到磁盘上
- 溢出spill的时候根据key进行排序sort
- 默认根据key字典序排序
第六阶段
- 对所有溢出文件进行最终的merge合并，成为一个文件

Reduce阶段

第一阶段
- ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据
第二阶段
- 把拉取来数据，全部进行合并merge，即把分散的数据合并成一个大的数据。再对合并后的数据排序
第三阶段（分组）
- 是对排序后的键值对调用reduce方法
- 键相等的键值对调用一次reduce方法
- 最后把这些输出的键值对写入到HDFS文件中

Shuffle 机制

Map产生输出开始

到Reduce取得数据作为输入之前

的过程

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据
而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一
定规则的数据，以便reduce端接收处理
一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle

Map端Shuffle

Collect阶段：将MapTask的结果收集输出到默认大小为100M的环形缓冲区，保存之前会对key进行分区的计算，
默认Hash分区
Spill阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，在将数据写入磁盘之前需要对数
据进行一次排序的操作，如果配置了combiner，还会将有相同分区号和key的数据进行排序
Merge阶段：把所有溢出的临时文件进行一次合并操作，以确保一个MapTask最终只产生一个中间数据文件。

Reducer端Shuffle

Copy阶段： ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据
Merge阶段：在ReduceTask远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作
Sort阶段：在对数据进行合并的同时，会进行排序操作，由于MapTask阶段已经对数据进行了局部的排序，
ReduceTask只需保证Copy的数据的最终整体有效性即可

机制弊端

Shuffle是MapReduce程序的核心与精髓，是MapReduce的灵魂所在
Shuffle也是MapReduce被诟病最多的地方所在
MapReduce相比较于Spark、Flink计算引擎慢的原因，跟Shuffle机制有很大的关系
Shuffle中频繁涉及到数据在内存、磁盘之间的多次往复

目录CONTENT

Hadoop 之 MapReduce

思想