如何在hadoop集群上运行xgboost进行分布式模型训练？

vshtjzan 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(519)

我正在尝试建立一个ctr预测模型，使用xgboost对1亿个上下文广告的印象进行预测，为了达到同样的效果，我想在hadoop上尝试xgboost，因为我有hdfs中可用的所有印象数据。
有人能引用python的工作教程吗？

来源：https://stackoverflow.com/questions/39767280/how-one-can-run-xgboost-on-hadoop-cluster-for-distributed-model-training

1条答案

按热度按时间

rn0zuynd1#

有很多方法可以做到：
如果您有一些较低级别的逻辑分组，比如某个项目部门的ctr，并且您希望为部门建立本地化模型，那么您可以使用map REDUCT类型的设置。它将确保属于单个部门的所有数据都将在单个容器中结束，并且您可以在该数据上构建模型。nlineinputformat是一个聪明的技巧，可以使这个map-only进程比基于map-reduce的进程更快。
您可以使用xgboost的spark版本进行分布式机器学习，以获取更多信息http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html
如果您正在决定您的基础设施，那么也可以尝试一下aws，如这里所述。它不是hadoop，而是伪分布式机器学习：https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

赞(0）回复(0）举报 2021-06-02

我来回答

如何在hadoop集群上运行xgboost进行分布式模型训练？

1条答案

相关问题

热门标签

最新问答