我使用的是3节点hadoop2.6集群。
hadoop fs -put data/sample.csv /tmp
这将把“sample.csv”保存在“/tmp”目录中。此csv有10亿条记录(大小为31 gb)这些数据是否分布在所有节点上?我需要为此更改任何配置吗?
wljmcqd81#
您可以运行此命令
hdfs fsck /tmp/sample.csv -files -blocks -locations
命令将为您的文件和位置提供相关的块。在这种情况下,如果复制因子为3,则所有3个节点上都将有31 gb的数据。
6tdlim6h2#
这些数据是否分布在所有节点上?对。如果您将数据写入hdfs,它总是分布式的。一般来说,它不一定分布在所有节点上。有3个节点和一个31gb的文件,它肯定是。但如果节点较多或文件较小,则可能不是。通常,hdfs决定如何最好地分发文件。默认情况下,它还以3种方式复制文件。
2条答案
按热度按时间wljmcqd81#
您可以运行此命令
命令将为您的文件和位置提供相关的块。在这种情况下,如果复制因子为3,则所有3个节点上都将有31 gb的数据。
6tdlim6h2#
这些数据是否分布在所有节点上?
对。如果您将数据写入hdfs,它总是分布式的。
一般来说,它不一定分布在所有节点上。有3个节点和一个31gb的文件,它肯定是。但如果节点较多或文件较小,则可能不是。通常,hdfs决定如何最好地分发文件。默认情况下,它还以3种方式复制文件。