hdfs—如何在Hadoop2.6的所有节点上分布数据

e0bqpujr 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(277)

我使用的是3节点hadoop2.6集群。

hadoop fs -put data/sample.csv /tmp

这将把“sample.csv”保存在“/tmp”目录中。此csv有10亿条记录（大小为31 gb）
这些数据是否分布在所有节点上？
我需要为此更改任何配置吗？

2条答案

您可以运行此命令

hdfs fsck /tmp/sample.csv -files -blocks -locations

命令将为您的文件和位置提供相关的块。在这种情况下，如果复制因子为3，则所有3个节点上都将有31 gb的数据。

这些数据是否分布在所有节点上？
对。如果您将数据写入hdfs，它总是分布式的。
一般来说，它不一定分布在所有节点上。有3个节点和一个31gb的文件，它肯定是。但如果节点较多或文件较小，则可能不是。通常，hdfs决定如何最好地分发文件。默认情况下，它还以3种方式复制文件。