sparkmlcrossvalidator在选择了最佳的超参数组合后是否重新适应了完整的训练数据集?

vq8itlhq  于 2021-07-09  发布在  Spark
关注(0)|答案(0)|浏览(214)

在交叉验证训练数据集上的超参数网格之后,sparkml CrossValidator 重新适应整个训练数据集?如果不是,它从交叉验证的哪个部分选择 bestModel 用于推断?
合身的 CrossValidator 提供一个 .transform() 方法。对于这一点 CrossValidator 使用最佳超参数对整个训练/交叉验证数据集进行重新训练,并使用重新拟合的模型进行推理?
或者是 bestModel 用于从所有交叉验证折叠中推断最佳性能模型(即,从最佳性能超参数组合中的最佳折叠中推断的模型,仅针对该折叠的数据进行训练)?
我问这个问题是因为斯巴克马尔之间的表面相似性 CrossValidator 以及 scikit-learnGridSearchCV . 如果传递参数 refit=TrueGridSearchCV ,它将使用param网格中的最佳超参数对整个训练数据集进行重新拟合。然后使用在整个训练集上训练的重新拟合模型通过 .predict() 方法。
我已经阅读了python文档、scala文档以及显示超参数调优和交叉验证的示例。我找不到任何具体的参考资料。
在示例中,有以下注解: # Make predictions on test documents. cvModel uses the best model found (lrModel). 但从这一点来看,我们还不清楚它是最佳超参数组合中的最佳折叠,还是重新适合,一个la scikit学习。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题