应用转换后需要将数据从hadoop加载到druid如果我使用spark，我们可以直接从spark rdd或dataframe加载数据到druid吗？

q8l4jmvw 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(728)

我在Hive表中有数据。我想在将数据加载到druid之前应用一系列转换。有很多方法，但我不确定。1应用转换后保存该表，然后通过hadoop摄取方法进行批量加载。但我想避免服务器上的额外写入。2使用宁静。但是它是用于spark流的，并且只用于scala和java，而不用于python。我说的对吗？
我还有别的办法可以做到吗？

hadoop apache-spark druid

来源：https://stackoverflow.com/questions/58693625/need-to-load-data-from-hadoop-to-druid-after-applying-transformations-if-i-use

1条答案

按热度按时间

eimct9ow1#

你可以通过使用Druid-Kafka集成来实现它。
我认为您应该从spark apply transformation中的表中读取数据，然后将其写回kafka流。一旦你设置了DruidKafka集成，它将从kafka读取数据，并将推送到DruidDataSource。
以下是关于Druid-Kafka整合的文档https://druid.apache.org/docs/latest/tutorials/tutorial-kafka.html

赞(0）回复(0）举报 2021-05-27

我来回答

应用转换后需要将数据从hadoop加载到druid如果我使用spark，我们可以直接从spark rdd或dataframe加载数据到druid吗？

1条答案

相关问题

热门标签

最新问答