sqoop与informatica大数据版数据源

ogq8wdun  于 2021-05-30  发布在  Hadoop
关注(0)|答案(4)|浏览(559)

我可以选择使用sqoop或informatica big data edition将数据源化到hdfs中。源系统是tearadata,oracle。
我想知道哪一个更好,以及背后的原因。
注意:我当前的实用程序能够使用sqoop将数据拉入hdfs,创建hive staging表和归档外部表。
informatica是组织中使用的etl工具。
向桑吉布问好

ddhy6vgd

ddhy6vgd1#

数据交换必须使用sqoop。你有很多选择,你可以有一个最佳的表现。另外,如果您试图在rdbms(teradata/oracle)<->informatica<->hadoop集群之间交换数据,那么首先需要将数据带到informatica服务器,这可能涉及额外的i/o。
如果数据处理必须在hive informatica中完成,则必须使用bde。

aiqt4smr

aiqt4smr2#

sqoop公司
sqoop能够从oracle/teradata执行完全和增量加载。
sqoop从源系统并行复制数据。
sqoop脚本可以由oozie自定义生成和调度。
任何规模集群的开源解决方案。无许可证费用。
信息
etl行业中管理Map的最佳接口。
不提供并行复制选项。为并行处理提供配置单元模式。基本上将转换转换转换为配置单元查询以执行。还支持下推生成mr代码。
每个节点的许可成本。如果您计划500个hadoop节点用于未来的数据存储,那么在扩展集群时,您需要支付10倍于50个节点集群的费用。
informatica-bde是市场上相对较新的产品。infadeveloper将用于处理大数据。在informatica上支持所有最新的hadoop平台特性,以及informatica-bde中的序列生成、状态Map、会话、查找转换等传统rdbms特性,都面临着挑战。
informatica mdm不支持hadoop。
如果价格是决策的标准,那么选择sqoop。如果您想利用切换hadoop plaftorm工具的灵活性,请使用sqoop(sqoop项目也在考虑跳过spark)。如果你因为某种原因和informatica联系在一起,那就去informatica吧。但大多数informatica开发人员都希望转向hadoop技术。

2ledvvac

2ledvvac3#

尽管这是一年前提出的问题,但在informatica中共享新功能
informaticabdmversion10.1支持sqoop连接,即您可以使用sqoop从rdbms读取数据并将其加载到hadoop/hive中
另外,bdm版本10.2中还有许多新特性,特别是开发人员工具中的参数化支持和动态Map。

w3nuxt5m

w3nuxt5m4#

工具和手工编码总是存在的。informatica工具提供了更易于维护的企业级解决方案。
bdm10.1.1支持带有spark引擎的sqoop。这个版本支持spark 2.0.1,所以性能非常好。bdm10.2刚刚发布了一些新特性,比如早期版本中缺少的有状态变量支持。

相关问题