显然,spark2.4中mllib的lshmodel支持spark结构化流(https://issues.apache.org/jira/browse/spark-24465).
但是,我不清楚怎么做。例如 approxSimilarityJoin
从 MinHashLSH
转变(https://spark.apache.org/docs/latest/ml-features#lsh-操作)可以直接应用于流Dataframe?
我在网上找不到更多关于它的信息。有人能帮我吗?
显然,spark2.4中mllib的lshmodel支持spark结构化流(https://issues.apache.org/jira/browse/spark-24465).
但是,我不清楚怎么做。例如 approxSimilarityJoin
从 MinHashLSH
转变(https://spark.apache.org/docs/latest/ml-features#lsh-操作)可以直接应用于流Dataframe?
我在网上找不到更多关于它的信息。有人能帮我吗?
1条答案
按热度按时间y3bcpkx11#
你需要
坚持训练模型(例如。
modelFitted
)你的流媒体工作可以访问的地方。这是在你的流媒体工作之外完成的。然后在结构化流式处理作业中加载此模型
将此模型应用于流Dataframe(例如。
df
)与可能需要将流Dataframe转换成正确的格式,以便在模型预测中使用。