配置单元-如何每天自动将数据附加到配置单元表?

acruukt9  于 2021-06-25  发布在  Hive
关注(0)|答案(2)|浏览(350)

我在hdfs中有一个目录 .csv 具有固定结构和列名的文件将在每天结束时转储,如下所示:

我有一个配置单元表,它应该在每天开始时添加新数据,其中包含来自 .csv 前一天的 .csv 文件。我如何做到这一点。

mlnl4t2r

mlnl4t2r1#

在hdfs中在该目录上构建配置单元表。新文件将转储到表位置后,从该表中选择将拾取新文件。我建议更改转储文件以写入日期子文件夹的过程,并按日期创建分区表。在此之后,您只需在选择表之前运行recover partitions命令。

uxh89sit

uxh89sit2#

我可以建议使用cron jobs。创建一个更新表的脚本,然后配置一个cron作业,在一天中的某个特定时间(对于您的情况是在一天的开始)执行该脚本,然后表将自动更新。
ps:这个解决方案只能在您的服务器投入生产时应用,我的意思是cron作业应该在运行24/24的服务器中使用,否则,您应该使用anacron。

相关问题