应用转换后需要将数据从hadoop加载到druid如果我使用spark,我们可以直接从spark rdd或dataframe加载数据到druid吗?

q8l4jmvw  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(728)

我在Hive表中有数据。我想在将数据加载到druid之前应用一系列转换。有很多方法,但我不确定。1应用转换后保存该表,然后通过hadoop摄取方法进行批量加载。但我想避免服务器上的额外写入。2使用宁静。但是它是用于spark流的,并且只用于scala和java,而不用于python。我说的对吗?
我还有别的办法可以做到吗?

eimct9ow

eimct9ow1#

你可以通过使用Druid-Kafka集成来实现它。
我认为您应该从spark apply transformation中的表中读取数据,然后将其写回kafka流。一旦你设置了DruidKafka集成,它将从kafka读取数据,并将推送到DruidDataSource。
以下是关于Druid-Kafka整合的文档https://druid.apache.org/docs/latest/tutorials/tutorial-kafka.html

相关问题