我有一个独立的spark集群,由一个主服务器和两个工作服务器组成,每个服务器有4个内核和4gbram。这两个工人分别在两台机器上工作。我在客户机模式下使用spark submit提交spark应用程序jars。我的问题是:在这个配置中,如果在应用程序的执行过程中,一个工人应该进入一个死状态(例如由于连接被拒绝),有可能告诉spark恢复在执行过程中丢失的工人吗?目前,如果一个工作进程进入死状态,它不仅会保持这种状态,直到某个特定应用程序的执行结束,而且在执行新应用程序的情况下也会保持这种状态。要恢复处于死机状态的工人,我必须转到相应的机器并运行(从终端)命令
start-slave.sh spark://master-ip: 7077
是否可以不通过手动命令而通过自动程序检索工人?感谢任何想回答的人!
暂无答案!
目前还没有任何答案,快来回答吧!