如何用hadoop实时处理postgres数据库?

mctunoxg  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(624)

我有一个用于生产服务器的postgres数据库,需要使用hadoop定期分析。hadoop中的每个查询都应该基于postges数据库中的最新版本。不同步是可以接受的,但只能延迟几分钟。
如何在hadoop中进行近乎实时的数据分析?

csbfibhn

csbfibhn1#

是的,可以通过配置配置单元的存储处理程序api实现来实现。
存储处理程序的概念只是将外部表元数据单独放在配置单元元存储中,而实际的数据存储系统将是外部数据源。其中,配置单元表元数据将包含外部数据库表的细节以及通常的列和格式细节。
每当您将数据写入用存储处理程序配置的配置单元表时,存储handler api就会将写入操作委托给配置的外部数据库,以便将记录写入外部表。
同样,当您从配置了存储处理程序的配置单元表中读取数据时,api将从外部表中获取实际记录。
似乎已经有一个用于postgres数据库的hive存储处理程序api实现可用,请参阅下面的url。
https://github.com/myui/hivejdbcstoragehandler
希望这对你有帮助。。

相关问题