我有文件存储在hdfs,我需要得到它的大小。我在命令提示符处使用了以下行来获取文件大小 hadoop fs -du -s train.csv | awk '{{s+=$1}} END {{printf s}} 我知道hadoop存储由复制因子决定的文件副本。所以当我运行上面的行时,返回的大小是文件大小时间复制因子还是文件大小?
hadoop fs -du -s train.csv | awk '{{s+=$1}} END {{printf s}}
2vuwiymt1#
来自hadoop文档:du返回三列,格式如下:size disk\u space\u consumped\u with\u all\u replicas full\u path\u namehttps://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/filesystemshell.html如您所见,第一列是文件大小,而第二列是占用的空间(包括副本)。
1条答案
按热度按时间2vuwiymt1#
来自hadoop文档:
du返回三列,格式如下:size disk\u space\u consumped\u with\u all\u replicas full\u path\u namehttps://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/filesystemshell.html
如您所见,第一列是文件大小,而第二列是占用的空间(包括副本)。