我们需要一个适当的进程来定期将数据从hadoop分布式文件系统(hdfs)拉到关系数据库(postgresql)中。我们需要每小时传输几百万条记录,我正在寻找最好的行业标准来将数据移出hdfs。有人有什么建议吗?这个想法是让一个web应用程序与postgresql交互,后者将拥有聚合的数据。
cczfrluj1#
sqoop是为了在关系数据存储和hadoop之间移动数据而构建的。具体来说,您需要sqoop导出。
1条答案
按热度按时间cczfrluj1#
sqoop是为了在关系数据存储和hadoop之间移动数据而构建的。具体来说,您需要sqoop导出。