04-MapReduce

2022/3/6 6:18:05

编程Tag： Map task MapReduce 写出 04 ReduceTask 阶段 MR

本文主要是介绍04-MapReduce，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

一、MR的核心编程思想

① Job(作业) : 一个MR程序称为一个Job

② MRAppMaster（MR任务的主节点）: 一个Job在运行时，会先启动一个进程，这个进程为 MRAppMaster。

负责Job中执行状态的监控，容错，和RM申请资源，提交Task等！

③ Task(任务)： Task是一个进程！负责某项计算！

④ Map(Map阶段): Map是MapReduce程序运行的第一个阶段！

Map阶段的目的是将输入的数据，进行切分。将一个大数据，切分为若干小部分。切分后，每个部分称为1片(split)，每片数据会交给一个Task（进程）进行计算！

Task负责是Map阶段程序的计算，称为MapTask!

在一个MR程序的Map阶段，会启动N（取决于切片数）个MapTask。每个MapTask是并行运行！

⑤ Reduce(Reduce阶段)： Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)！

Reduce阶段的目的是将Map阶段，每个MapTask计算后的结果进行合并汇总！得到最终结果。Reduce阶段是可选的！

Task负责是Reduce阶段程序的计算，称为ReduceTask!

一个Job可以通过设置，启动N个ReduceTask，这些ReduceTask也是并行运行！

每个ReduceTask最终都会产生一个结果！

① Mapper: map阶段核心的处理逻辑

② Reducer: reduce阶段核心的处理逻辑

③ InputFormat: 输入格式

④ RecordReader: 记录读取器

RecordReader负责从输入格式中，读取数据，读取后封装为一组记录(k-v)!

⑤ OutPutFormat: 输出格式

⑥ RecordWriter: 记录写出器

RecordWriter将处理的结果以什么样的格式，写出到输出文件中！

在MR中数据的流程：

⑦ Partitioner: 分区器

分区器，负责在Mapper将数据写出时，将keyout-valueout，为每组keyout-valueout打上标记，进行分区！

目的：一个ReduceTask只会处理一个分区的数据！

这篇关于04-MapReduce的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！