我有一个由3台运行hadoop和spark-1.5.2的macos机器组成的集群(尽管spark-2.0.0也存在同样的问题)。使用'yarn'作为spark主url,我遇到了一个奇怪的问题,任务只分配给3台机器中的2台。
基于hadoop Jmeter 板(主机上的端口8088),很明显所有3个节点都是集群的一部分。但是,我运行的任何spark作业都只使用2个执行器。
例如,下面是长时间运行javawordcount示例的“executors”选项卡:
“ bat 服务器”是主人。应该有一个附加的从服务器“batservers2”,但它不在那里。
为什么会这样?
请注意,除了为yarn资源和节点管理器提供额外内存之外,我的yarn或spark(或hdfs)配置都不常见。
1条答案
按热度按时间jmo0nnb31#
值得注意的是,只需仔细查看spark submit帮助消息,就可以找到答案:
仅Yarn:
...
--num executors要启动的执行器的数量(默认值:2)。
如果我指定
--num-executors 3
在spark submit命令中,使用第3个节点。