hadoop数据管道用例

yks3o0rb 于 2021-05-27 发布在 Hadoop

关注(0)|答案(2)|浏览(397)

以下是我的用例：
我在hadoop（hdfs文件，然后是hive视图）中存储了一些数据，这些数据每天被摄取5次。
我需要处理这些数据（servicea）
然后，我需要尽快将其放回hadoop（与社区共享结果）并将其写入oracle数据库（serviceb）。
我该怎么做？
我曾想过使用spark从hadoop中获取数据，对其进行处理并写回。但如何更新我的oracle数据库？约束条件：
没有独家新闻
servicea和serviceb之间没有api调用（大数据）
不直接从servicea写入serviceb数据库

hadoop hdfs apache-spark spark-streaming

来源：https://stackoverflow.com/questions/58680360/hadoop-data-pipeline-usecase

2条答案

按热度按时间

pkbketx91#

如果你用Spark。您可以使用sparkjdbc编写。看见
根据文件：

// Saving data to a JDBC source
jdbcDF.write()
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .save();

赞(0）回复(0）举报 2021-05-27

w6mmgewl2#

您可以使用spark处理数据并将结果存储回hdfs/hive表中，一旦结果就绪，就可以使用sqoop将数据导出到oracle
您可以按照这个简单的指南将数据从配置单元导出到oracle；或者遵循sqoop指南

赞(0）回复(0）举报 2021-05-27