hive外部表在hdp3.1中插入覆盖操作后保留旧数据文件

mspsb9vt  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(256)

我正在hive(hdp3.1)中执行插入覆盖操作。问题是它不断添加基文件和增量文件,其中基文件包含新插入的数据,增量包含覆盖操作之前的旧数据。
在hive上查询只提供新添加的数据,但是当涉及到spark时,它倾向于从驻留在hdfs位置上的delta和base文件输出新旧数据。
我需要找到下面的解决方案-
1) 是否有任何方法不允许配置单元在使用插入覆盖操作(任何设置)时首先存储增量文件
2) spark为什么要获取旧数据?它是否总是在内部引用表位置?如何阻止它读取增量文件?
注意:我们的管理员已将配置单元仓库连接器配置为从配置单元中的任何数据库读取,如hdp文档中所述。在将数据读入spark之前,我不想使用hadoop fs-rm-r文件手动删除这些文件。谁能给我指点一下吗。
谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题