在交叉验证训练数据集上的超参数网格之后,sparkml CrossValidator
重新适应整个训练数据集?如果不是,它从交叉验证的哪个部分选择 bestModel
用于推断?
合身的 CrossValidator
提供一个 .transform()
方法。对于这一点 CrossValidator
使用最佳超参数对整个训练/交叉验证数据集进行重新训练,并使用重新拟合的模型进行推理?
或者是 bestModel
用于从所有交叉验证折叠中推断最佳性能模型(即,从最佳性能超参数组合中的最佳折叠中推断的模型,仅针对该折叠的数据进行训练)?
我问这个问题是因为斯巴克马尔之间的表面相似性 CrossValidator
以及 scikit-learn
的 GridSearchCV
. 如果传递参数 refit=True
至 GridSearchCV
,它将使用param网格中的最佳超参数对整个训练数据集进行重新拟合。然后使用在整个训练集上训练的重新拟合模型通过 .predict()
方法。
我已经阅读了python文档、scala文档以及显示超参数调优和交叉验证的示例。我找不到任何具体的参考资料。
在示例中,有以下注解: # Make predictions on test documents. cvModel uses the best model found (lrModel).
但从这一点来看,我们还不清楚它是最佳超参数组合中的最佳折叠,还是重新适合,一个la scikit学习。
暂无答案!
目前还没有任何答案,快来回答吧!