im无法在虚拟盒中配置多数据节点群集不考虑复制因子,取1。假设我有一个10gb的文件,有一个列city,它有两个不同的值,我有两个数据节点。希望按城市划分数据。此外,我会在每个分区2桶桶邮政编码。我的问题是每个数据节点中都会有分区,还是每个节点只有不同的分区。我的理解是,每个节点都有所有的分区,但在某些节点中,分区可能不存在,因为数据文件中没有足够的值。每个数据节点中的每个分区都将由邮政编码绑定,而且某些绑定可能没有值。
sxpgvts31#
分区是使用目录实现的。目录包含文件。可能是一个,可能是多个。bucketing是使用文件实现的。一个bucket可能与一个文件相关,也可能与多个文件相关。文件是从块构建的。可能是一个,可能是多个。块驻留在节点中。不同的块可以驻留在同一节点上,也可以驻留在不同的节点上。底线-没有任何东西可以将分区/存储桶绑定到特定节点。
1条答案
按热度按时间sxpgvts31#
分区是使用目录实现的。
目录包含文件。可能是一个,可能是多个。
bucketing是使用文件实现的。
一个bucket可能与一个文件相关,也可能与多个文件相关。
文件是从块构建的。可能是一个,可能是多个。
块驻留在节点中。不同的块可以驻留在同一节点上,也可以驻留在不同的节点上。
底线-
没有任何东西可以将分区/存储桶绑定到特定节点。