数据基础设施实现-最佳方法

yqyhoc1h 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(368)

作为poc的一部分，我需要构建一个数据基础设施，它可以从多个erp源（sap和oracle）获取数据，并将其摄取到datalake或目标数据库。另外，我需要连接许多表，并根据业务需要进行严格的列转换。考虑到长期解决方案和大量数据摄取（约10000000行），什么是明智的方法？最后，我将以视图或rest调用的形式在应用程序中使用这些数据。我需要为数据流任务考虑任何etl工具吗？如果我正在考虑用开源解决方案来实现这一点，那该怎么办？我需要考虑像hadoop这样的大数据解决方案的实现吗？如何从头开始？
谢谢您！

hadoop etl bigdata Connection erp

来源：https://stackoverflow.com/questions/43893973/data-infrastructure-implementation-best-approach

1条答案

按热度按时间

ct2axkht1#

在这被标记为“主要基于意见”之前，这是我的两分钱。
您可以完全使用hadoop生态系统工具并利用hdfs（hadoop分布式文件系统）作为“容错”数据湖/数据仓库来实现这一点。
我需要构建一个数据基础设施，它可以从多个erp源（sap和oracle）获取数据，并将其摄取到datalake或目标数据库
我们有sqoop，您可以使用它将整个表从关系数据库移动到hdfs。它通常很容易使用，并且只有几个命令集。
另外，我需要连接许多表，并根据业务需要进行严格的列转换
然后，您可以继续将数据加载到hive上，hive是一个构建在hdfs之上的数据仓库系统。在查询和加载数据方面，它与rdbms非常相似，并附带了一组很好的转换。
或者，如果您想提高标准，可以在hive中创建这些表，然后将这些表加载到spark中，在那里执行转换（和操作），并将数据加载回hive（或使用sparksql的任何其他数据库）。
这些都是开源的，并与cloudera cdh一起打包测试。

赞(0）回复(0）举报 2021-06-02

我来回答

数据基础设施实现-最佳方法

1条答案

相关问题

热门标签

最新问答