hadoop替代了ssis、informatica等etl工具？

axzmvihb 于 2021-06-02 发布在 Hadoop

关注(0)|答案(3)|浏览(841)

我对ssis有很好的了解，informatica用于执行etl过程和将数据加载到数据仓库。
但我对hadoop的了解还不够。
我只是想知道，
我们可以用hadoop代替像informatica这样的etl工具吗？
在这里，我主要讨论的是关系表结构。我知道hadoop可以用来从非结构化数据中提取信息。

hadoop data-warehouse etl informatica ssis

来源：https://stackoverflow.com/questions/23930678/hadoop-as-a-substitue-for-etl-tools-like-ssis-informatica

3条答案

按热度按时间

dtcbnfnu1#

这不能按要求回答。
hadoop的强大功能来自于synergy或mr和hdfs，使计算更接近数据。当您谈论使用hadoop进行etl从oltp关系表到dw时，hadoop必须连接、提取数据并进行上传。让一组工作人员重击oltp数据库以提取数据对etl过程几乎没有帮助。即使当你的t相是复杂的，是很少的情况下，甚至是一个小飞盘的雷达相比，从关系数据库提取e。
转换越复杂、io密集且不依赖关系表，hadoop的情况就越好。
如果数据已经在hdfs中，hadoop将是一个明显的选择。由于数据位于一个中心rdbms中，您需要证明hadoop会/可能会有帮助的原因。

赞(0）回复(0）举报 2021-06-03

2w2cym1i2#

您可以使用hadoop map reduce执行验证、转换和概要分析，这些都是etl的关键功能。下面是一些开源解决方案。它们以csv作为输入，生成csv作为输出。
https://pkghosh.wordpress.com/2015/07/28/validating-big-data/
https://pkghosh.wordpress.com/2015/11/17/transforming-big-data/
https://pkghosh.wordpress.com/2015/09/22/profiling-big-data/
在etl之后，您可以使用hive进行数据仓库和分析。另一个选择是使用 Impala 。

赞(0）回复(0）举报 2021-06-03

5uzkadbs3#

我们可以用hadoop代替像informatica这样的etl工具吗？
是的，我们为什么不像其他人所说的那样进行英语教学呢。
一种方法，从源中提取数据，装入目标数据库，然后转换并集成成所需的格式。所有繁重的数据处理都在目标数据库中进行。hadoop是这里作为目标数据库的正确选择，只要我们对每种不同的文件格式都有良好的读取器，它就能够很好地处理繁重的数据。

赞(0）回复(0）举报 2021-06-02

我来回答

hadoop替代了ssis、informatica等etl工具？

3条答案

相关问题

热门标签

最新问答