hadoop hdfs中的“__distcpSplit__”文件是什么

e3bfsja2  于 2022-12-09  发布在  HDFS
关注(0)|答案(1)|浏览(155)

当我使用Distcp工具通过不同的集群复制文件时,我发现了一些后缀为__distcpSplit__的异常文件。这是什么?原始文件没有这样的后缀。我还注意到源文件被其他进程打开,但为什么会出现这种结果?

w8biq8rn

w8biq8rn1#

如果你传递argblocksPerChunk〉0,它会将大文件拆分成多个块,每个块的大小为blockSize * blocksPerChunk,当distcp完成时,输出提交器会在提交阶段将这些文件连接到最终的目标文件。

相关问题