spark结构化流媒体的lshmodel

c2e8gylq  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(555)

显然,spark2.4中mllib的lshmodel支持spark结构化流(https://issues.apache.org/jira/browse/spark-24465).
但是,我不清楚怎么做。例如 approxSimilarityJoinMinHashLSH 转变(https://spark.apache.org/docs/latest/ml-features#lsh-操作)可以直接应用于流Dataframe?
我在网上找不到更多关于它的信息。有人能帮我吗?

y3bcpkx1

y3bcpkx11#

你需要
坚持训练模型(例如。 modelFitted )你的流媒体工作可以访问的地方。这是在你的流媒体工作之外完成的。

modelFitted.write.overwrite().save("/path/to/model/location")

然后在结构化流式处理作业中加载此模型

import org.apache.spark.ml._
val model = PipelineModel.read.load("/path/to/model/location")

将此模型应用于流Dataframe(例如。 df )与

model.transform(df)

// in your case you may work with two streaming Dataframes to apply `approxSimilarityJoin`.

可能需要将流Dataframe转换成正确的格式,以便在模型预测中使用。

相关问题