如何解决hive中的分区过多问题

xxslljrj  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(351)

如果在一个表中有更多的分区,会出现什么问题。我计划在配置单元中创建一个历史表,它将包含7到8年的数据,我还计划用日期键对表进行分区。在这种情况下,我的表将有大约2500到3500个分区。这个过度分区会给我的namenode和datanode带来问题吗?每个条目将占用namenode多少内存?由于这种过度分割,我将面临什么问题?如果我将面临内存问题,请建议我的解决办法。如果你发现任何关于这个的好文章,请给我链接。有没有其他方法可以解决这个问题?
谢谢venkadesan e

lskq00tm

lskq00tm1#

我不认为你在为过度分区而挣扎,3.5公里听起来还可以。分区数量较多的唯一问题是查询开始运行之前的时间,我想这是因为从metastore接收到分区元数据。我们在10k分区上遇到了真正的减速,3.5k应该适合您

相关问题