配置单元/粘合表中特定于分区的模式背后的基本原理

2q5ifsrm  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(222)

我试图理解为配置单元/粘合表管理的特定于分区的模式背后的基本原理。尽管我找不到任何文档,特别是关于这个的,但是在我的搜索过程中,我发现了几个Hive圣器(见参考资料中的附件),它们暗示了它的用途。据我所知,分区模式是表模式注册时的快照,它允许配置单元支持模式演化,而不会使现有的表分区和底层数据无效。此外,它使配置单元能够支持不同的分区和表级文件格式,从而为客户机提供了更大的灵活性。
具体目的我还不清楚,因此请Maven们就以下问题发表意见:
维护分区特定模式的基本原理是什么?
在分区和表模式不一致的情况下,配置单元/胶水是如何工作的?分辨率标准是否考虑或依赖于基础数据文件格式?
不在表元数据中维护特定于分区的模式会产生什么影响?
实验和观察:
我做了一个实验,用sparkshell、hivecli和athena测试了一些count,count和分区过滤器,以及对glue表的模式描述查询,这些表在分区属性中没有显式的模式定义(底层数据文件是用Parquet地板写的)。所得结果与原表计算结果一致。
参考文献:
https://issues.apache.org/jira/browse/hive-6131
https://issues.apache.org/jira/browse/hive-6835
https://issues.apache.org/jira/browse/hive-8839
谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题