我有一个与 DecisionTreeClassifier
函数来自 PySpark.ML
. 当设置树函数时,每次决策树拟合时,我都会传递相同的随机种子。但是,当我关闭spark上下文并重新加载进程时,生成的决策树是不同的。
我有一些理解,由于性质的Spark的分布式系统,但我正在寻找一种方法,以确保再现性。到目前为止,我所做的努力包括加载一个未分区的表和缓存sparkDataframe。
我有一个与 DecisionTreeClassifier
函数来自 PySpark.ML
. 当设置树函数时,每次决策树拟合时,我都会传递相同的随机种子。但是,当我关闭spark上下文并重新加载进程时,生成的决策树是不同的。
我有一些理解,由于性质的Spark的分布式系统,但我正在寻找一种方法,以确保再现性。到目前为止,我所做的努力包括加载一个未分区的表和缓存sparkDataframe。
暂无答案!
目前还没有任何答案,快来回答吧!