我需要计算每个文档中每个单词的词频,所以我想在每个文本文件中实现map reduce函数。如何在每个文本文件中实现map()和reduce()?而map-reduce中的另一个问题是map-reduce将reduce中的输出写到单个文件/user/output/part-0000中,project需要将每个文件处理后的输出写到不同的文本文件中,怎么做?
9rygscc11#
遵循以下步骤:在作业文件中计算输入文件的数量套 numreducers 等于输入文件数为文件分配数字0到n-1,并将此信息传递到分布式缓存获取文件名 setup() 方法,并检索该文件的分配编号,并将其分配给某个静态变量从 Partitioner 返回此静态变量reducer将发出n个文件。
numreducers
setup()
Partitioner
1条答案
按热度按时间9rygscc11#
遵循以下步骤:
在作业文件中计算输入文件的数量
套
numreducers
等于输入文件数为文件分配数字0到n-1,并将此信息传递到分布式缓存
获取文件名
setup()
方法,并检索该文件的分配编号,并将其分配给某个静态变量从
Partitioner
返回此静态变量reducer将发出n个文件。