我正在尝试从s3读取Dataframe并进行计数。我有一个76个r3.4XL的集群(1个主集群和75个从集群)。我设置:
spark.dynamicAllocation.enabled "true"
maximizeResourceAllocation "true"
当我查看spark ui时,我看到:
只有25个执行者——其中只有7个有活动任务(在13到28之间变化),其余的没有活动任务。我的工作不是利用集群的全部容量。数据有240个分区,sparkui中的总任务数是241。
有人能解释一下为什么只有很少的执行器在工作,为什么我只看到25个执行器而不是75个,以及如何利用集群的全部容量吗?
群集详细信息:r3.4xlarge vcpu cores=32内存=122 gb
更新1:我尝试设置:spark.dynamicallocation.enabled“false”maximizeresourceallocation“false”
以及
sqlSession.conf.set("spark.executor.cores", 5)
sqlSession.conf.set("spark.executor.instances", 375)
sqlSession.conf.set("spark.executor.memory", "38G")
但是我仍然没有在ui中看到375个执行器。
谢谢
暂无答案!
目前还没有任何答案,快来回答吧!