我想把一百万个文本文件上传到hdfs。因此,使用eclipse上传这些文件大约需要2个小时。有谁能给我建议一下做这件事的快速方法吗。?我想的是:把所有的文本文件压缩成一个zip文件,然后上传到hdfs中,最后使用一些解压技术,我会把这些文件解压到hdfs中。任何帮助都将不胜感激。
fv2wmkja1#
distcp是一种将文件上传到hdfs的好方法,但是对于您的特定用例(您希望将本地文件上传到运行在同一台计算机上的单节点集群),最好不要将文件上传到hdfs。您可以使用localfs( file://a_file_in_your_local_disk )而不是hdfs,所以不需要上传文件。有关如何做到这一点的示例,请参见另一个so问题。
file://a_file_in_your_local_disk
brtdzjyr2#
试试distcp。distcp(distributed copy)是一种用于大型集群间/集群内复制的工具。它使用map/reduce来实现其分布、错误处理和恢复以及报告。您也可以使用它将数据从本地fs复制到hdfs。示例:bin/hadoop distcp file:///users/miqbal1/dir1hdfs://localhost:9000/
2条答案
按热度按时间fv2wmkja1#
distcp是一种将文件上传到hdfs的好方法,但是对于您的特定用例(您希望将本地文件上传到运行在同一台计算机上的单节点集群),最好不要将文件上传到hdfs。您可以使用localfs(
file://a_file_in_your_local_disk
)而不是hdfs,所以不需要上传文件。有关如何做到这一点的示例,请参见另一个so问题。
brtdzjyr2#
试试distcp。distcp(distributed copy)是一种用于大型集群间/集群内复制的工具。它使用map/reduce来实现其分布、错误处理和恢复以及报告。您也可以使用它将数据从本地fs复制到hdfs。
示例:bin/hadoop distcp file:///users/miqbal1/dir1hdfs://localhost:9000/