有人告诉我,HDFS包括分成几个块的文件,大小为128M。因为复制因子是3,所以在我看来,每个文件的大小应该不超过128M * 3 = 384M。然而,当NN网站显示由Hive生成的文件几乎是3GB。一些由impala生成的文件可能超过30GB。有谁能帮我弄明白这一点......提前感谢你的帮助。
k4ymrczo1#
您不必担心块以及它们的存储位置,除非您确实在优化; Hadoop为您管理所有这些东西。您突出显示的size列是所有块的大小总和,不包括复制。
size
1条答案
按热度按时间k4ymrczo1#
您不必担心块以及它们的存储位置,除非您确实在优化; Hadoop为您管理所有这些东西。您突出显示的
size
列是所有块的大小总和,不包括复制。