我有一个 csv 文件。假设它有两个分割,即一个块将由第一个块处理 map() 另一个任务在2号完成 map() 任务。在给定的csv中,我将“0”替换为 false “1”与 true . 所以我会为此写一份Map专用的工作。作业完成后,是否会得到与结果相同的输入文件顺序?作为 shuffle 以及 sort 完成Map工作后。有没有办法得到相同顺序的输入文件作为结果?
csv
map()
false
true
shuffle
sort
wqnecbli1#
你能做到的 job.setNumReduceTasks(0); . 这种方式, shuffle 以及 sort 不会发生的。但是,输出文件的数量与Map任务的数量相同(本例中为2个)。如果你把它们串联起来,你会得到你想要的。这可能无关紧要,因为在大多数情况下,hadoop允许您在需要文件的地方提供一个文件夹。
job.setNumReduceTasks(0);
1条答案
按热度按时间wqnecbli1#
你能做到的
job.setNumReduceTasks(0);
. 这种方式,shuffle
以及sort
不会发生的。但是,输出文件的数量与Map任务的数量相同(本例中为2个)。如果你把它们串联起来,你会得到你想要的。这可能无关紧要,因为在大多数情况下,hadoop允许您在需要文件的地方提供一个文件夹。