如何通过分布式方法压缩hdfs中的大量文件?

carvr3hs  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(298)

我最近需要用hdfs压缩数百个文件。现在我可以使用gnu并行处理一个节点上的多进程。然而,我的服务器不允许ssh在彼此之间进行分发。因此,现在我正在寻找一个分布式框架来完成我的工作。hadoop、spark或flink在多个节点上压缩这些文件方便吗?非常感谢你!

niwlg2el

niwlg2el1#

你能 ssh 从主服务器到所有主机?如果是这样,请将文件列表发送到主服务器,然后从主服务器启动gnu parallel,并使用中给出的每个从属服务器 -S (或 --slf ).

相关问题