我计划在amazons3的数据之上使用sparksql(而不是pyspark)。所以我认为我需要创建配置单元外部表,然后才能使用sparksql。但是s3数据是分区的,并且希望分区也反映在hive外部表中。每天管理配置单元表的最佳方法是什么。因为,每天都可以创建新的分区,或者覆盖旧的分区,那么该怎么做才能使配置单元外部表保持最新?
pbpqsu0x1#
创建一个中间表,并将insert overwrite partition on date加载到配置单元表中。
1条答案
按热度按时间pbpqsu0x1#
创建一个中间表,并将insert overwrite partition on date加载到配置单元表中。