如何在多个oracle数据库中的数据中实现数据分析?

6yjfywim  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(247)

我对数据分析和大数据概念很陌生。我坚持要决定,用什么技术来实现我的需求。
我的需求如下:
我的客户使用多个oracle数据库作为他们组织的erp后端。这两个数据库具有不同的结构和不同的数据类型。我需要用这两个数据库的数据创建一个数据分析应用程序。我可以为这个实现调整什么技术。我可以使用hadoop及其相关应用程序吗?。
如果我使用hadoop,如何将我的oracle数据库同步到hadoop。我正在寻找一个解决方案与实时同步。
或者我可以使用与数据库的本机连接来实现数据库访问并创建新的应用程序?数据库的大小约为1.5 tb。

3qpi33ja

3qpi33ja1#

这个问题有很多层次,所以我将保持它的一般性,以使您朝着正确的方向前进。
您建议两种方法—一种将数据保存在oracle中,另一种将其带到hadoop中。
如果您留在oracle,则可能需要使用di工具(如informatica、pentaho、sas di或sas enterprise)来查询不同模式中的不同表,提取所需数据,并从本机步骤或通过集成python、r或weka脚本调用分析。
据我所知,hadoop并没有与oracle进行本机集成,而是管理自己的文件系统hdfs。在hadoop上运行的sqoop作业可以从oracle中提取并写入hive或hbase表,然后您的集成将使用spark上的hive上下文,这使您能够执行分析。
您可以直接使用r或python查询数据库。packt曾经提供了一个关于使用r的商业智能的指南,其中包括关于使用r的etl(提取-转换-加载)过程的章节。我将告诉您,这在业界不是一个常见的解决方案,因为r主要是一种分析师的语言,而不是etl开发人员的工具。也就是说,r应该能够查询大多数oracle数据库,除非它们确实很旧,并执行集成和分析。缺点是r的内核可能需要比rstudio更多的处理能力和线程,这就是oraclesqldeveloper和toad能够很好地处理大规模查询的原因。python可能可以使用cx\u oracle库来执行这种方法。

相关问题