sqoop与informatica大数据版数据源

ogq8wdun 于 2021-05-30 发布在 Hadoop

关注(0)|答案(4)|浏览(559)

我可以选择使用sqoop或informatica big data edition将数据源化到hdfs中。源系统是tearadata，oracle。
我想知道哪一个更好，以及背后的原因。
注意：我当前的实用程序能够使用sqoop将数据拉入hdfs，创建hive staging表和归档外部表。
informatica是组织中使用的etl工具。
向桑吉布问好

hadoop Hive sqoop informatica-powercenter

来源：https://stackoverflow.com/questions/31161219/sqoop-vs-informatica-big-data-edition-for-data-sourcing

4条答案

按热度按时间

ddhy6vgd1#

数据交换必须使用sqoop。你有很多选择，你可以有一个最佳的表现。另外，如果您试图在rdbms（teradata/oracle）<->informatica<->hadoop集群之间交换数据，那么首先需要将数据带到informatica服务器，这可能涉及额外的i/o。
如果数据处理必须在hive informatica中完成，则必须使用bde。

赞(0）回复(0）举报 2021-05-30

aiqt4smr2#

sqoop公司
sqoop能够从oracle/teradata执行完全和增量加载。
sqoop从源系统并行复制数据。
sqoop脚本可以由oozie自定义生成和调度。
任何规模集群的开源解决方案。无许可证费用。
信息
etl行业中管理Map的最佳接口。
不提供并行复制选项。为并行处理提供配置单元模式。基本上将转换转换转换为配置单元查询以执行。还支持下推生成mr代码。
每个节点的许可成本。如果您计划500个hadoop节点用于未来的数据存储，那么在扩展集群时，您需要支付10倍于50个节点集群的费用。
informatica-bde是市场上相对较新的产品。infadeveloper将用于处理大数据。在informatica上支持所有最新的hadoop平台特性，以及informatica-bde中的序列生成、状态Map、会话、查找转换等传统rdbms特性，都面临着挑战。
informatica mdm不支持hadoop。
如果价格是决策的标准，那么选择sqoop。如果您想利用切换hadoop plaftorm工具的灵活性，请使用sqoop（sqoop项目也在考虑跳过spark）。如果你因为某种原因和informatica联系在一起，那就去informatica吧。但大多数informatica开发人员都希望转向hadoop技术。

赞(0）回复(0）举报 2021-05-30

2ledvvac3#

尽管这是一年前提出的问题，但在informatica中共享新功能
informaticabdmversion10.1支持sqoop连接，即您可以使用sqoop从rdbms读取数据并将其加载到hadoop/hive中
另外，bdm版本10.2中还有许多新特性，特别是开发人员工具中的参数化支持和动态Map。

赞(0）回复(0）举报 2021-05-30

w3nuxt5m4#

工具和手工编码总是存在的。informatica工具提供了更易于维护的企业级解决方案。
bdm10.1.1支持带有spark引擎的sqoop。这个版本支持spark 2.0.1，所以性能非常好。bdm10.2刚刚发布了一些新特性，比如早期版本中缺少的有状态变量支持。

赞(0）回复(0）举报 2021-05-30