pentaho和hadoop

kr98yfug  于 2021-07-13  发布在  Hadoop
关注(0)|答案(2)|浏览(458)

如果这个问题看起来很幼稚,我很抱歉,但我是数据工程领域的新手,因为我现在是自学者,但是我的问题是像pentaho和hadoop这样的etl产品之间有什么区别?当我用这个代替那个的时候?或者我可以一起用,怎么用?
谢谢您,

oyt4ldly

oyt4ldly1#

pentaho pdi是一个用于创建、管理、运行和监视etl工作流的工具。它可以与hadoop、rdbms、队列、文件等一起工作。hadoop是一个用于分布式计算的平台(map reduce framework、hdfs等)。许多工具可以在hadoop上运行,也可以连接到hadoop并使用它的数据、运行进程。
pentaho pdi可以使用hadoop自己的连接器连接到hadoop并写入/读取数据。您可以从pdi启动hadopp作业,它也可以在转换流中自行处理数据,并将结果存储或发送到HDF、rdbms、一些队列、电子邮件等。当然,您可以为etl工作流发明自己的工具,或者简单地使用bash+hive等,但pdi允许etl以统一的方式处理,而不依赖于数据源和目标。pentaho也有很好的视觉效果。

3qpi33ja

3qpi33ja2#

etl是一种工具,用于提取数据、转换(连接、丰富、过滤等)数据并将结果加载到另一个数据存储中。好的etl是可视化的,数据存储不可知,并且易于自动化。
hadoop是一个分布在集群网络上的数据存储,加上处理不确定数据的软件。数据转换专门处理一些基本的操作,这些操作可以针对通常大量的数据进行优化,例如(但不仅限于)map reduce。
pentaho data integrator具有连接到hadoop系统的连接器,易于设置和调整。因此,最好的策略是建立一个hadoop网络作为数据存储,并通过pdi对其进行操作。

相关问题