以下是我的用例:
我在hadoop(hdfs文件,然后是hive视图)中存储了一些数据,这些数据每天被摄取5次。
我需要处理这些数据(servicea)
然后,我需要尽快将其放回hadoop(与社区共享结果)并将其写入oracle数据库(serviceb)。
我该怎么做?
我曾想过使用spark从hadoop中获取数据,对其进行处理并写回。但如何更新我的oracle数据库?约束条件:
没有独家新闻
servicea和serviceb之间没有api调用(大数据)
不直接从servicea写入serviceb数据库
2条答案
按热度按时间pkbketx91#
如果你用Spark。您可以使用sparkjdbc编写。看见
根据文件:
w6mmgewl2#
您可以使用spark处理数据并将结果存储回hdfs/hive表中,一旦结果就绪,就可以使用sqoop将数据导出到oracle
您可以按照这个简单的指南将数据从配置单元导出到oracle;或者遵循sqoop指南