Hadoop客户端Job提交流程

  • 时间:
  • 浏览:0
  • 来源:uu快3大小_uu快3网站_开奖历史

2. 上传作业代码jobjar, libjar等,从本地文件系统到HDFS中去。

     a. 调用job.getInputFormat().getSplits()

     org.apache.hadoop.mapreduce.Job#connect

     org.apache.hadoop.mapreduce.JobSubmitter#writeSplits()

3. 拆分输入文件,生成splits

1. 选泽使用分布式环境通信协议,还是本地调试通信协议

     copyAndConfigureFiles(job, submitJobDir);

从源码层面,总结下Hadoop客户端提交作业的流程:

     b. 根据split size (通常就说 HDFS block size), 将文件拆分成多个逻辑上的Split。