我已经把Kafka河和Spark连接起来了。我还训练了apachesparkmlib模型来基于流式文本进行预测。我的问题是,得到一个预测,我需要传递一个dataframework。
//kafka stream
val stream = KafkaUtils.createDirectStream[String, String](
ssc,
PreferConsistent,
Subscribe[String, String](topics, kafkaParams)
)
//load mlib model
val model = PipelineModel.load(modelPath)
stream.foreachRDD { rdd =>
rdd.foreach { record =>
//to get a prediction need to pass DF
val toPredict = spark.createDataFrame(Seq(
(1L, record.value())
)).toDF("id", "review")
val prediction = model.transform(test)
}
}
我的问题是,spark流不允许创建Dataframe。有什么办法吗?我可以使用case类或结构吗?
1条答案
按热度按时间nafvub8i1#
可以创建一个
DataFrame
或者Dataset
就像你在核心星火里一样。为此,我们需要应用一个模式。在foreachRDD
然后,我们可以将得到的rdd转换成一个Dataframe,该Dataframe可以进一步与ml管道一起使用。