我在internet上有一个文件夹,希望将其复制到hadoop群集。文件应通过http协议下载。我可以创建一个java应用程序,它可以遍历文件夹,获取文件夹结构,并在hdfs上创建相应的结构,然后将文件逐个下载到我的机器上,然后上传到服务器上。有没有更干净的方法来完成这样的任务而不必在本地下载?
我试过这样的命令
wget -r --no-parent https://example.org/other/2009/2009-01/ -O - |hadoop fs -put - /user/beni/deleteme3/
但没用
暂无答案!
目前还没有任何答案,快来回答吧!