在xgboost 4j spark中训练随机森林

zazmityj 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(614)

如何在使用xgboost spark 4j训练随机林时传递num_parallel_tree参数？
在参考xgboost中的随机林之后，我做了以下操作

val hyperParams = Map(
       "booster" -> "gbtree",
        "objective" -> "binary:logistic", 
        "evalMetric" -> "logloss",
        "num_parallel_tree" -> 100)

    val xGBoostClassifier = new XGBoostClassifier(hyperParams)
      .setFeaturesCol(vectorAssembler.getOutputCol)
      .setLabelCol(labelColumnName)
      .setNumRound(1)

但最终的模型只有一棵树。看起来像是 num_parallel_tree 参数根本没有被使用。即使xgboost库的日志打印所有正在使用的超参数，也不会打印 num_parallel_tree .
我们使用的是xgboost版本1.0.0和spark 2.4.2。

apache-spark random-forest xgboost

来源：https://stackoverflow.com/questions/63352379/training-random-forest-in-xgboost-4j-spark