我们使用的是hdp hadoop发行版v2.3.2,我们处理的是配置单元外部表,这些表每天都会被查询。进程启动几天后,数据目录包含大量的暂存目录,格式为:。hive-staging\u hive\u date-time\u生成了大量的暂存目录,每个暂存目录对应于在配置单元表上运行的查询。如何避免这些暂存目录堆积到我的数据目录中?
pepwfjgg1#
我发布的答案https://stackoverflow.com/a/35583367/14186 我可以帮你。您可以将配置单元配置为将这些暂存目录放在其他地方(通常它们作为最终目标目录的子目录)在这个答案的例子中,我将它们放在/tmp下的dirs中,我们每天运行一个cron作业来删除任何超过1周的剩余暂存dir,以保持整洁,以防hive不删除它们。
1条答案
按热度按时间pepwfjgg1#
我发布的答案https://stackoverflow.com/a/35583367/14186 我可以帮你。您可以将配置单元配置为将这些暂存目录放在其他地方(通常它们作为最终目标目录的子目录)
在这个答案的例子中,我将它们放在/tmp下的dirs中,我们每天运行一个cron作业来删除任何超过1周的剩余暂存dir,以保持整洁,以防hive不删除它们。