spark结构化流媒体的lshmodel

c2e8gylq 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(554)

显然，spark2.4中mllib的lshmodel支持spark结构化流(https://issues.apache.org/jira/browse/spark-24465).
但是，我不清楚怎么做。例如 approxSimilarityJoin 从 MinHashLSH 转变(https://spark.apache.org/docs/latest/ml-features#lsh-操作）可以直接应用于流Dataframe？
我在网上找不到更多关于它的信息。有人能帮我吗？

apache-spark spark-structured-streaming lsh

来源：https://stackoverflow.com/questions/66437542/lshmodel-on-spark-structured-streaming

1条答案

按热度按时间

y3bcpkx11#

你需要
坚持训练模型（例如。 modelFitted )你的流媒体工作可以访问的地方。这是在你的流媒体工作之外完成的。

modelFitted.write.overwrite().save("/path/to/model/location")

然后在结构化流式处理作业中加载此模型

import org.apache.spark.ml._
val model = PipelineModel.read.load("/path/to/model/location")

将此模型应用于流Dataframe（例如。 df )与

model.transform(df)

// in your case you may work with two streaming Dataframes to apply `approxSimilarityJoin`.

可能需要将流Dataframe转换成正确的格式，以便在模型预测中使用。

赞(0）回复(0）举报 2021-07-12

我来回答

spark结构化流媒体的lshmodel

1条答案

相关问题

热门标签

最新问答