我正在解析一个数据,以便通过mapreduce作业从中获得一些意义。解析的数据以批处理的形式出现。它通过spark流作业进一步加载到hive外部表。这是一个实时过程。今天我遇到了一个不寻常的事件,在输出位置创建了一个临时目录,由于无法将目录加载到配置单元表中,因此加载到配置单元表失败。事情只发生过一次,其余的工作都很顺利。请参考截图。_临时目录还包含作为空子目录的任务ID。请任何人帮忙解决这个问题,以便将来可以避免。
q5iwbnjs1#
_临时目录是在有一些任务尚未完成时创建的,可能有很少的数据尚未将其实际位置从其临时位置移走。任务可能在web ui中显示为已完成,但数据移动尚未完成。完成此过程后,将只有\u成功文件。您可以通过监视\u临时目录的大小来检查这一点。这将逐渐减小。
1条答案
按热度按时间q5iwbnjs1#
_临时目录是在有一些任务尚未完成时创建的,可能有很少的数据尚未将其实际位置从其临时位置移走。任务可能在web ui中显示为已完成,但数据移动尚未完成。完成此过程后,将只有\u成功文件。您可以通过监视\u临时目录的大小来检查这一点。这将逐渐减小。