hadoop数据管道用例

yks3o0rb  于 2021-05-27  发布在  Hadoop
关注(0)|答案(2)|浏览(397)

以下是我的用例:
我在hadoop(hdfs文件,然后是hive视图)中存储了一些数据,这些数据每天被摄取5次。
我需要处理这些数据(servicea)
然后,我需要尽快将其放回hadoop(与社区共享结果)并将其写入oracle数据库(serviceb)。
我该怎么做?
我曾想过使用spark从hadoop中获取数据,对其进行处理并写回。但如何更新我的oracle数据库?约束条件:
没有独家新闻
servicea和serviceb之间没有api调用(大数据)
不直接从servicea写入serviceb数据库

pkbketx9

pkbketx91#

如果你用Spark。您可以使用sparkjdbc编写。看见
根据文件:

// Saving data to a JDBC source
jdbcDF.write()
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .save();
w6mmgewl

w6mmgewl2#

您可以使用spark处理数据并将结果存储回hdfs/hive表中,一旦结果就绪,就可以使用sqoop将数据导出到oracle
您可以按照这个简单的指南将数据从配置单元导出到oracle;或者遵循sqoop指南

相关问题