pyspark mllib随机林分类器重复性问题

ijnw1ujt 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(230)

我遇到了这样的情况，我不知道pyspark随机森林分类器是怎么回事。我希望模型在相同的训练数据下是可复制的。为此，我添加了 seed 参数设置为本页建议的整数值。
https://spark.apache.org/docs/2.4.1/api/java/org/apache/spark/mllib/tree/randomforest.html.
这个 seed 参数是引导和选择特征子集的随机种子。现在，我验证了模型，它们完全相同。但问题是。
如果我对训练数据重新排序，或者简单地将其洗牌并运行训练过程（使用相同的种子值），它将生成不同的模型。有人能帮我理解这种行为吗？我认为seed用于引导和选择特性子集。如果是这样的话，是什么导致了这种随机行为？
这将是非常好的理解这一点，如果有人在那里可以帮助-这将是非常感谢。谢谢。

apache-spark pyspark apache-spark-mllib random-forest

来源：https://stackoverflow.com/questions/61718373/pyspark-mllib-random-forest-classifier-repeatability-issue

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark mllib随机林分类器重复性问题

暂无答案！

相关问题

热门标签

最新问答