使用distcp命令复制到s3位置

nafvub8i  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(458)

我正在使用以下命令将一些数据从hdfs复制到s3:

  1. $ hadoop distcp -m 1 /user/hive/data/test/test_folder=2015_09_19_03_30 s3a://data/Test/buc/2015_09_19_03_30
  2. ``` `2015_09_19_03_30` s3中不存在bucket。它成功地复制了 `/user/hive/data/test/test_folder=2015_09_19_03_30` 目录到s3 `2015_09_19_03_30` 但是当我再次执行相同的命令时,它会在s3中创建另一个bucket。
  3. 我希望两个文件应该在同一个桶。
p8h8hvxi

p8h8hvxi1#

这是您尝试的正确案例,因为它将新文件放入同一个存储桶中

  1. // first there is no data
  2. $ hadoop fs -ls s3n://testing/
  3. $
  4. // then dist cp the data in dir input to testing bucket
  5. $ hadoop distcp input/ s3n://testing/
  6. $ hadoop fs -ls s3n://testing/
  7. Found 1 items
  8. drwxrwxrwx - 0 1970-01-01 00:00 s3n://testing/input
  9. $ hadoop fs -ls s3n://testing/input/
  10. Found 3 items
  11. -rw-rw-rw- 1 1670 2016-09-23 13:23 s3n://testing/input/output
  12. -rw-rw-rw- 1 541 2016-09-23 13:23 s3n://testing/input/some.txt
  13. -rw-rw-rw- 1 1035 2016-09-23 13:23 s3n://testing/input/some2.txt
  14. $
  15. // added new file a.txt in input path
  16. // and executed same command
  17. $ hadoop distcp input/ s3n://testing/
  18. $ hadoop fs -ls s3n://testing/input/
  19. Found 4 items
  20. -rw-rw-rw- 1 6 2016-09-23 13:26 s3n://testing/input/a.txt
  21. -rw-rw-rw- 1 1670 2016-09-23 13:23 s3n://testing/input/output
  22. -rw-rw-rw- 1 541 2016-09-23 13:23 s3n://testing/input/some.txt
  23. -rw-rw-rw- 1 1035 2016-09-23 13:23 s3n://testing/input/some2.txt
  24. $
展开查看全部

相关问题