hadoop返回的文件大小是否包含复制因子?

oaxa6hgo  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(355)

我有文件存储在hdfs,我需要得到它的大小。我在命令提示符处使用了以下行来获取文件大小 hadoop fs -du -s train.csv | awk '{{s+=$1}} END {{printf s}} 我知道hadoop存储由复制因子决定的文件副本。所以当我运行上面的行时,返回的大小是文件大小时间复制因子还是文件大小?

2vuwiymt

2vuwiymt1#

来自hadoop文档:
du返回三列,格式如下:size disk\u space\u consumped\u with\u all\u replicas full\u path\u namehttps://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/filesystemshell.html
如您所见,第一列是文件大小,而第二列是占用的空间(包括副本)。

相关问题