map-reduce:使用哪种底层数据结构

vlurs2pr  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(387)

我想知道,如果hadoop map reduce中使用了这么大的数据集,那么hadoop使用的数据结构是什么。如果可能的话,请有人给我提供一个hadoop底层数据结构的详细视图。

6g8kf2rb

6g8kf2rb1#

hdfs是hadoop默认的底层存储平台。它和其他任何文件系统一样,不关心文件的结构。它只确保文件以冗余方式保存,并可用于快速检索。
所以它完全取决于你的用户,用你喜欢的结构来存储文件。
map reduce程序只需将文件数据作为输入提供给它。不一定是整个文件,但它的一部分取决于输入格式等。然后,Map程序可以使用它想要的任何方式的数据。
另一方面,“hive”处理表(列/行)。您可以使用hive-ql以类似sql的方式查询它们。

p5fdfcr1

p5fdfcr12#

感谢你们所有人
我得到了问题的答案。底层的hdfs使用块作为存储单元,下面的书和网络流概念中提到了详细的描述。

所有细节都可以在hadoop的第三章:权威指南中找到。

相关问题