sparksql

uklbhaso  于 2021-06-24  发布在  Hive
关注(0)|答案(1)|浏览(462)

我计划在amazons3的数据之上使用sparksql(而不是pyspark)。所以我认为我需要创建配置单元外部表,然后才能使用sparksql。但是s3数据是分区的,并且希望分区也反映在hive外部表中。
每天管理配置单元表的最佳方法是什么。因为,每天都可以创建新的分区,或者覆盖旧的分区,那么该怎么做才能使配置单元外部表保持最新?

pbpqsu0x

pbpqsu0x1#

创建一个中间表,并将insert overwrite partition on date加载到配置单元表中。

相关问题