我正在处理超过400万条记录的大数据,我想根据9个变量预测3个标签。我使用了RandomForest,但它需要几个小时,我想知道是否有什么方法可以在我的代码中包含Hadoop来缩短时间。注意:我使用Kaggle notebook,会话配额为:12小时最大30 g ram最大
c3frrgcw1#
在使用Hadoop之前,让我们先弄清楚它提供了什么以及你是否需要它。Hadoop是一个技术栈,提供分布式文件系统(HDFS),分布式处理资源协商器(YARN)和MapReduce框架。当您希望分布式计算并使用更多资源更快地解决问题时,它非常有用。但是为你的任务创建hadoop集群可能有点大材小用。你可以使用Spark和RandomForestClassifier。Spark是一个内存分布式计算引擎,对ML算法有很好的支持。Spark可以与Hadoop一起运行,但这不是一个严格的要求。您也可以在独立模式下运行Spark,也可以使用Mesos或Kubernetes运行。
1条答案
按热度按时间c3frrgcw1#
在使用Hadoop之前,让我们先弄清楚它提供了什么以及你是否需要它。
Hadoop是一个技术栈,提供分布式文件系统(HDFS),分布式处理资源协商器(YARN)和MapReduce框架。
当您希望分布式计算并使用更多资源更快地解决问题时,它非常有用。但是为你的任务创建hadoop集群可能有点大材小用。
你可以使用Spark和RandomForestClassifier。Spark是一个内存分布式计算引擎,对ML算法有很好的支持。
Spark可以与Hadoop一起运行,但这不是一个严格的要求。您也可以在独立模式下运行Spark,也可以使用Mesos或Kubernetes运行。