eclipse—将文本文件上传到hdfs的最快方式(hadoop)

sr4lhrrt  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(474)

我想把一百万个文本文件上传到hdfs。因此,使用eclipse上传这些文件大约需要2个小时。有谁能给我建议一下做这件事的快速方法吗。?我想的是:把所有的文本文件压缩成一个zip文件,然后上传到hdfs中,最后使用一些解压技术,我会把这些文件解压到hdfs中。任何帮助都将不胜感激。

fv2wmkja

fv2wmkja1#

distcp是一种将文件上传到hdfs的好方法,但是对于您的特定用例(您希望将本地文件上传到运行在同一台计算机上的单节点集群),最好不要将文件上传到hdfs。您可以使用localfs( file://a_file_in_your_local_disk )而不是hdfs,所以不需要上传文件。
有关如何做到这一点的示例,请参见另一个so问题。

brtdzjyr

brtdzjyr2#

试试distcp。distcp(distributed copy)是一种用于大型集群间/集群内复制的工具。它使用map/reduce来实现其分布、错误处理和恢复以及报告。您也可以使用它将数据从本地fs复制到hdfs。
示例:bin/hadoop distcp file:///users/miqbal1/dir1hdfs://localhost:9000/

相关问题