我想知道是否有一种方法可以将Kafka的流数据直接加载到hdfs中,使用spark流而不使用flume。我已经用flume(kafka源和hdfs接收器)试过了。提前谢谢!
ekqde3dh1#
Kafka连接有hdfs连接器。confluent的文档提供了更多信息。
62o28rlo2#
这是spark流的一个非常基本的函数。根据您使用的spark和kafka的版本,您可以查看您使用的版本的spark流kafka集成文档。保存到hdfs就像 rdd.saveAsTextFile("hdfs:///directory/filename") .spark/kafka最新版本集成指南
rdd.saveAsTextFile("hdfs:///directory/filename")
2条答案
按热度按时间ekqde3dh1#
Kafka连接有hdfs连接器。confluent的文档提供了更多信息。
62o28rlo2#
这是spark流的一个非常基本的函数。根据您使用的spark和kafka的版本,您可以查看您使用的版本的spark流kafka集成文档。保存到hdfs就像
rdd.saveAsTextFile("hdfs:///directory/filename")
.spark/kafka最新版本集成指南