从postgres到hive/hdfs的每日数据存档

wqsoz72f  于 2021-06-03  发布在  Sqoop
关注(0)|答案(0)|浏览(266)

我正在进行物联网数据管道的工作,我每秒都会从多个设备接收信息到postgres数据库中。postgres将只有两天的数据,两天之后的数据将被刷新,这样每次都有过去两天的数据。现在我需要每天把postgres的数据存档到hdfs。我的参数是: deviceid, timestamp, year, month, day, temperature, humidity 我想每天将其归档到hdfs中,并使用配置单元查询来查询数据。为此,我需要在配置单元中使用deviceid、year和month作为分区来创建外部分区表。我尝试了以下选项,但不起作用:
我曾尝试使用sqoop进行数据复制,但它无法基于不同的deviceid、年份和月份创建动态文件夹,以便外部配置单元表可以选择分区
使用sqoop导入 --hive-import 属性,以便数据可以直接复制到配置单元表中,但在这种情况下,它会覆盖现有表,而且我也不确定这是否适用于分区表
请提出一些解决方案。
注意:我正在使用azure服务,因此azure数据工厂的选项是开放的。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题