hive查询生成管理不当的暂存目录

yacmzcpb  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(278)

我们使用的是hdp hadoop发行版v2.3.2,我们处理的是配置单元外部表,这些表每天都会被查询。
进程启动几天后,数据目录包含大量的暂存目录,格式为:。hive-staging\u hive\u date-time\u生成了大量的暂存目录,每个暂存目录对应于在配置单元表上运行的查询。
如何避免这些暂存目录堆积到我的数据目录中?

pepwfjgg

pepwfjgg1#

我发布的答案https://stackoverflow.com/a/35583367/14186 我可以帮你。您可以将配置单元配置为将这些暂存目录放在其他地方(通常它们作为最终目标目录的子目录)
在这个答案的例子中,我将它们放在/tmp下的dirs中,我们每天运行一个cron作业来删除任何超过1周的剩余暂存dir,以保持整洁,以防hive不删除它们。

相关问题