我在hdfs中有一个目录,每两天填充一次文件。我想把这个目录下的所有文件复制到另一个目录下,如果今天有新文件进来,我想把这个文件复制到复制目录下。我们如何在hdfs中做到这一点。我知道我们可以用rsync在linux中实现这一点。在hdfs中也有类似的方法吗?
gmol16391#
不,hdfs没有可用的文件同步方法。你要么 hdfs dfs -cp 或者 hadoop distcp 手动或通过任何调度程序( cron ).如果文件数量更多, distcp 首选。
hdfs dfs -cp
hadoop distcp
cron
distcp
hadoop distcp -update <src_dir> <dest_dir>
这个 -update 如果源和目标的大小、块大小或校验和不同,标志将被覆盖。
-update
1条答案
按热度按时间gmol16391#
不,hdfs没有可用的文件同步方法。你要么
hdfs dfs -cp
或者hadoop distcp
手动或通过任何调度程序(cron
).如果文件数量更多,
distcp
首选。这个
-update
如果源和目标的大小、块大小或校验和不同,标志将被覆盖。