在bluemix上运行了hadoop big insights和apache spark服务的配置之后,我注意到hadoop是非常可配置的,我可以选择集群中有多少节点,这些节点的ram和cpu核心以及硬盘空间
但spark服务似乎不太可配置。我唯一的选择是在2到30个spark执行器之间进行选择。
我正在使用bluemix作为ibmc4项目的一部分来评估这些服务,因此对此我有一些问题。
是否可以用与hadoop服务类似的方式配置spark服务?i、 e.选择节点、节点ram、cpu核等。
在这种情况下,什么是spark执行者?它们是节点吗?如果有,他们的规格是什么?
未来是否有计划改进spark配置的选项?
抱歉的问题,但我需要知道这些规格,以便进行我的工作。
1条答案
按热度按时间92vpleto1#
BigInsights服务就是一些人所说的托管服务。也就是说,当您在这个服务的示例上进行配置时,您将获得自己的集群,其中的节点按照所选计划中的指定配置。因此,您需要确切地知道每个节点您支付给您什么。另一方面,apachespark服务是一种共享计算服务,您可以在其中付费运行spark程序。运行spark是关于内存计算,以及在其他数据服务托管的数据源上创建rdd。所以在这种情况下,重要的是我能运行多少并发作业,以及我能用多少内存运行多少并行任务,等等。在spark服务计划中,这些执行器似乎是这个计算马力的抽象;不幸的是,如果你关心的话,很难将其Map到物理硬件。计划描述需要更多的细化和细节来说明如何将这种抽象转换为如何Map到工作负载需求。
不过,据我了解,在不久的将来,这一点应该有相当大的改进。有传闻说,移动到只有一个星火服务计划,你可以拨入,无论何时,你需要多少计算,这将生效时,你点击“去”,为所有星火工作从那时起;似乎你可以旋转拨号盘,直到你得到你想要的,看看这将花费多少,然后锁定它,直到下次你需要改变它。我可以想象一些更动态的东西,甚至比每个工作的基础上。但不管怎样,这项计算服务的发展方向似乎是这样的。