在hadoop上完全独立于相同数据的作业?

c86crjj0  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(246)

我需要为机器学习问题优化一些超参数。这涉及到在相同的输入数据上启动多个作业,并完全独立地保存它们的输出。在我曾经使用过的每个作业分发系统中,这是一个非常常见的用例,可以通过命令行和/或作业配置文件上的几个开关来处理。现在我在一个集群上,它的作业分配系统是hadoop/yarn,这是我以前从未使用过的。尽管进行了大量搜索,但在hadoop上实现这一点的唯一方法似乎是将每次运行作为一个单独的作业提交。这将导致每次运行的作业提交开销,其中可能有1000次。有什么简单的方法吗?也许是一种没有任何关系的先生工作(顺便说一句,我的ml代码是用c++编写的,所以我想我需要使用hadoop流媒体。)如果有必要的话,我会学习java,但对于这么简单的东西来说,这似乎是不成比例的工作量。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题