我正在尝试建立一个ctr预测模型,使用xgboost对1亿个上下文广告的印象进行预测,为了达到同样的效果,我想在hadoop上尝试xgboost,因为我有hdfs中可用的所有印象数据。有人能引用python的工作教程吗?
rn0zuynd1#
有很多方法可以做到:如果您有一些较低级别的逻辑分组,比如某个项目部门的ctr,并且您希望为部门建立本地化模型,那么您可以使用map REDUCT类型的设置。它将确保属于单个部门的所有数据都将在单个容器中结束,并且您可以在该数据上构建模型。nlineinputformat是一个聪明的技巧,可以使这个map-only进程比基于map-reduce的进程更快。您可以使用xgboost的spark版本进行分布式机器学习,以获取更多信息http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html如果您正在决定您的基础设施,那么也可以尝试一下aws,如这里所述。它不是hadoop,而是伪分布式机器学习:https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html
1条答案
按热度按时间rn0zuynd1#
有很多方法可以做到:
如果您有一些较低级别的逻辑分组,比如某个项目部门的ctr,并且您希望为部门建立本地化模型,那么您可以使用map REDUCT类型的设置。它将确保属于单个部门的所有数据都将在单个容器中结束,并且您可以在该数据上构建模型。nlineinputformat是一个聪明的技巧,可以使这个map-only进程比基于map-reduce的进程更快。
您可以使用xgboost的spark版本进行分布式机器学习,以获取更多信息http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html
如果您正在决定您的基础设施,那么也可以尝试一下aws,如这里所述。它不是hadoop,而是伪分布式机器学习:https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html