我们有一个大约有20个节点的集群。此群集在许多用户和作业之间共享。因此,我很难观察我的工作,以便得到一些指标,如cpu使用率、i/o、网络、内存等。。。如何获得工作级别的指标。ps:集群已经安装了ganglia,但不确定如何让它在工作级别工作。我想做的是监视集群仅用于执行作业的资源。
ubbxdtey1#
您可以从spark history server获取spark作业度量,该服务器显示以下信息:-调度程序阶段和任务的列表-rdd大小和内存使用情况摘要-环境信息-有关正在运行的执行者的信息1,在启动spark应用程序之前,将spark.eventlog.enabled设置为true。这将spark配置为将spark事件记录到持久化存储中。2、设置spark.history.fs.logdirectory,这是包含历史服务器要加载的应用程序事件日志的目录;3.执行以下命令启动历史服务器:./sbin/start-history-server.sh有关更多信息,请参阅以下链接:http://spark.apache.org/docs/latest/monitoring.html
1条答案
按热度按时间ubbxdtey1#
您可以从spark history server获取spark作业度量,该服务器显示以下信息:
-调度程序阶段和任务的列表
-rdd大小和内存使用情况摘要
-环境信息
-有关正在运行的执行者的信息
1,在启动spark应用程序之前,将spark.eventlog.enabled设置为true。这将spark配置为将spark事件记录到持久化存储中。
2、设置spark.history.fs.logdirectory,这是包含历史服务器要加载的应用程序事件日志的目录;
3.执行以下命令启动历史服务器:./sbin/start-history-server.sh
有关更多信息,请参阅以下链接:
http://spark.apache.org/docs/latest/monitoring.html