java—并行写入hadoop文件系统

xytpbqjk  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(389)

我是hadoop的新手,我有个问题。。。
我有一个输出文件(任务的结果),我想修改它。因为它可能是一个非常大的文件,我想在parralel中执行此操作。
注意:我不想简单地附加数据,我想修改结构(甚至大小),所以我必须完整地读取并写回它
读取文件不是问题,我给每个工作人员一部分文件,他们只需读取文件并进行所需的更改。
但是对于将新文件写回hdfs来说,似乎更为棘手。
我的问题是:如何在hdfs中创建一个大文件并让我的工作人员同时写入(我知道每个部分的大小,这样两个工作人员就不会试图在同一位置写入)。
提前感谢:)

kr98yfug

kr98yfug1#

因为作业是读取输入文件并将输入文件中的select内容并行地写入输出位置,所以这是一个仅Map程序的作业。
创建一个Map器类来读取文件并对文件执行操作。
在驱动程序类中设置Map器的编号。

job.setNumMapTasks(n); n-number of mappers

相关问题