我正在寻找一个平台,为吨小批量工作,其中一个工作完成20秒内,在大多数情况下。我也尝试了awsbatch,但它不适合我的用例,因为这个问题:forums.aws.amazon线程,所以我尝试了emr作为另一个可能的选择。
我创建了一个emr集群,它由三个m3.xlarge示例组成,并包含spark应用程序(spark:hadoop2.7.3上的spark 2.2.0,ganglia 3.7.2和zeppelin 0.7.3)。我试着在集群上执行一个步骤,这个步骤与emr发行指南中的“编写spark应用程序”示例几乎相同。代码是:sparksandbox。
在我的笔记本电脑上执行上述代码大约需要3秒钟,但是在有活动集群的emr上执行代码大约需要1分钟。据我所知,我花了50多秒来完成我写的代码。这些步骤只能连续执行。换句话说,同一时间只有一个步骤在运行。
以下是我的问题:
有没有办法缩短一份工作的启动时间?
有没有办法在一个集群上同时执行多个作业?
或者,我的用例不适合amazonemr吗?
最初我在亚马逊论坛上发布了这个问题,但我还没有得到任何答案。
暂无答案!
目前还没有任何答案,快来回答吧!