有没有一种方法可以使用spark和flume将kafka的流数据加载到hdfs中?

gwbalxhn  于 2021-06-04  发布在  Flume
关注(0)|答案(2)|浏览(341)

我想知道是否有一种方法可以将Kafka的流数据直接加载到hdfs中,使用spark流而不使用flume。我已经用flume(kafka源和hdfs接收器)试过了。
提前谢谢!

ekqde3dh

ekqde3dh1#

Kafka连接有hdfs连接器。confluent的文档提供了更多信息。

62o28rlo

62o28rlo2#

这是spark流的一个非常基本的函数。根据您使用的spark和kafka的版本,您可以查看您使用的版本的spark流kafka集成文档。保存到hdfs就像 rdd.saveAsTextFile("hdfs:///directory/filename") .
spark/kafka最新版本集成指南

相关问题