hdfs—如何在Hadoop2.6的所有节点上分布数据

e0bqpujr  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(277)

我使用的是3节点hadoop2.6集群。

hadoop fs -put data/sample.csv /tmp

这将把“sample.csv”保存在“/tmp”目录中。此csv有10亿条记录(大小为31 gb)
这些数据是否分布在所有节点上?
我需要为此更改任何配置吗?

wljmcqd8

wljmcqd81#

您可以运行此命令

hdfs fsck /tmp/sample.csv -files -blocks -locations

命令将为您的文件和位置提供相关的块。在这种情况下,如果复制因子为3,则所有3个节点上都将有31 gb的数据。

6tdlim6h

6tdlim6h2#

这些数据是否分布在所有节点上?
对。如果您将数据写入hdfs,它总是分布式的。
一般来说,它不一定分布在所有节点上。有3个节点和一个31gb的文件,它肯定是。但如果节点较多或文件较小,则可能不是。通常,hdfs决定如何最好地分发文件。默认情况下,它还以3种方式复制文件。

相关问题