每个文本文件的map reduce实现

ycl3bljg  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(371)

我需要计算每个文档中每个单词的词频,所以我想在每个文本文件中实现map reduce函数。如何在每个文本文件中实现map()和reduce()?
而map-reduce中的另一个问题是map-reduce将reduce中的输出写到单个文件/user/output/part-0000中,project需要将每个文件处理后的输出写到不同的文本文件中,怎么做?

9rygscc1

9rygscc11#

遵循以下步骤:
在作业文件中计算输入文件的数量
numreducers 等于输入文件数
为文件分配数字0到n-1,并将此信息传递到分布式缓存
获取文件名 setup() 方法,并检索该文件的分配编号,并将其分配给某个静态变量
Partitioner 返回此静态变量
reducer将发出n个文件。

相关问题