我想知道,如果hadoop map reduce中使用了这么大的数据集,那么hadoop使用的数据结构是什么。如果可能的话,请有人给我提供一个hadoop底层数据结构的详细视图。
6g8kf2rb1#
hdfs是hadoop默认的底层存储平台。它和其他任何文件系统一样,不关心文件的结构。它只确保文件以冗余方式保存,并可用于快速检索。所以它完全取决于你的用户,用你喜欢的结构来存储文件。map reduce程序只需将文件数据作为输入提供给它。不一定是整个文件,但它的一部分取决于输入格式等。然后,Map程序可以使用它想要的任何方式的数据。另一方面,“hive”处理表(列/行)。您可以使用hive-ql以类似sql的方式查询它们。
p5fdfcr12#
感谢你们所有人我得到了问题的答案。底层的hdfs使用块作为存储单元,下面的书和网络流概念中提到了详细的描述。
2条答案
按热度按时间6g8kf2rb1#
hdfs是hadoop默认的底层存储平台。它和其他任何文件系统一样,不关心文件的结构。它只确保文件以冗余方式保存,并可用于快速检索。
所以它完全取决于你的用户,用你喜欢的结构来存储文件。
map reduce程序只需将文件数据作为输入提供给它。不一定是整个文件,但它的一部分取决于输入格式等。然后,Map程序可以使用它想要的任何方式的数据。
另一方面,“hive”处理表(列/行)。您可以使用hive-ql以类似sql的方式查询它们。
p5fdfcr12#
感谢你们所有人
我得到了问题的答案。底层的hdfs使用块作为存储单元,下面的书和网络流概念中提到了详细的描述。
所有细节都可以在hadoop的第三章:权威指南中找到。