amazonemr：如何获得更快的启动时间和并发执行

ryevplcw 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(226)

我正在寻找一个平台，为吨小批量工作，其中一个工作完成20秒内，在大多数情况下。我也尝试了awsbatch，但它不适合我的用例，因为这个问题：forums.aws.amazon线程，所以我尝试了emr作为另一个可能的选择。
我创建了一个emr集群，它由三个m3.xlarge示例组成，并包含spark应用程序（spark:hadoop2.7.3上的spark 2.2.0，ganglia 3.7.2和zeppelin 0.7.3）。我试着在集群上执行一个步骤，这个步骤与emr发行指南中的“编写spark应用程序”示例几乎相同。代码是：sparksandbox。
在我的笔记本电脑上执行上述代码大约需要3秒钟，但是在有活动集群的emr上执行代码大约需要1分钟。据我所知，我花了50多秒来完成我写的代码。这些步骤只能连续执行。换句话说，同一时间只有一个步骤在运行。
以下是我的问题：
有没有办法缩短一份工作的启动时间？
有没有办法在一个集群上同时执行多个作业？
或者，我的用例不适合amazonemr吗？
最初我在亚马逊论坛上发布了这个问题，但我还没有得到任何答案。

hadoop apache-spark amazon-web-services batch-processing emr

来源：https://stackoverflow.com/questions/47805311/amazon-emr-how-to-get-faster-startup-time-and-concurrent-execution

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

amazonemr：如何获得更快的启动时间和并发执行

暂无答案！

相关问题

热门标签

最新问答