大数据mapreduce工作流程详解通俗易懂

 时间:2024-10-16 20:47:43

1、每个block会有map任务,block逻辑切分为切片,每个切片对应一个map任务,默认一个block,一个切片,一个map任务。map默认按行读取数据,组成键值对<字节偏移量,"行数据">,然后计算输出,新的键值对<key,value,partition>。

大数据mapreduce工作流程详解通俗易懂

2、map任务会将上面计算输出的召堡厥熠键值对(这里可以设置combinClass,在map端对数据进行压缩,减少落磁盘的网络IO处理),写到环形缓冲区,默认缓冲区大小是100MB,阈值80%,也就是缓冲达到了80%,就会落地磁盘溢写小文件,该文件已经按分区号,key进行排序

大数据mapreduce工作流程详解通俗易懂

3、默认小文件数量达到了三个,就会进行归并,归并的新文件也是按分区号,key排序好了的。map任务完成后,它的输出文件会被按照http get的方式下载到reduce任务的主机。

大数据mapreduce工作流程详解通俗易懂

4、等map所有任务结束,并且洗牌结束,每个reduce任务获取对应数据,reduce任务开始处理任务。如果时间充裕,reduce会对洗牌后的数据,进行归并写磁盘,如果没有时间,就只归并大文件,直接交给reduce任务进行迭代处理

大数据mapreduce工作流程详解通俗易懂

5、reduce按照key分组,每组执行一次reduce方法,该方法迭代计算,将结果写入到hdfs,reduce是并发处理的

大数据mapreduce工作流程详解通俗易懂
  • 怎么申请去新西兰留学
  • 如何打开电脑QQ表情漫游?
  • 年利率10%怎么算利息
  • 与狼共舞哪一集陈少杰救梁海棠
  • 朗姆酒的酿制过程
  • 热门搜索
    关于数学知识的手抄报 防震手抄报内容 知法守法手抄报内容 数学手抄报图片大全 手抄报初中生 我爱阅读手抄报资料 预防疾病手抄报内容 关于文明的手抄报内容 关于历史的手抄报 神话故事手抄报