我对spark和talend都是新手。
但我到处都看到这两个都是etl工具。我在这里读到了另一个答案。从另一个答案我了解到的是talend确实使用spark进行大数据处理。但是talend能有效地完成spark所做的所有etl工作而不必在引擎盖下使用spark吗?或者它本质上是一个spark上的 Package 器,所有发送到talend的数据实际上都放在talend内部的spark中进行处理?
我对此很困惑。有人能澄清一下吗?
我对spark和talend都是新手。
但我到处都看到这两个都是etl工具。我在这里读到了另一个答案。从另一个答案我了解到的是talend确实使用spark进行大数据处理。但是talend能有效地完成spark所做的所有etl工作而不必在引擎盖下使用spark吗?或者它本质上是一个spark上的 Package 器,所有发送到talend的数据实际上都放在talend内部的spark中进行处理?
我对此很困惑。有人能澄清一下吗?
2条答案
按热度按时间mkshixfv1#
与informatica bdm有自己的blaze框架在hadoop(本机)上进行处理不同,talend依赖于其他框架,如map reduce(hadoop下面可能使用tez)或spark engine。所以你可以避免Spark,但这样做没什么意义。关键的一点是,我认为使用talend会有一些生产力,因为它是基于图形的,当有很多领域,你不需要最熟练的员工时,这是很方便的。
对于nosql,比如hbase,它们提供特定的连接器或者可以使用phoenix路由。泰伦德也有Kafka连接器。
roqulrg32#
spark只是talend支持的框架之一。创建新作业时,可以从下拉列表中选择spark。您可以在文档中获得更多详细信息。