我在小数据集上运行spark应用程序只是为了进行功能测试。但我还想看看创建了多少执行器,以及如何对数据进行分区。为此,我尝试访问sparkui应用程序,但访问sparkui应用程序的问题是,一旦应用程序完成,连接就会丢失。如何访问spark历史服务器以监视过去的spark应用程序。我正在使用intellijide运行spark应用程序,但找不到访问此类服务器的选项。
htrmnn0y1#
在apachespark文档中,端点安装在 /api/v1. 例如,对于历史服务器,它们通常可以在 http://<server-url>:18080/api/v1 ,对于正在运行的应用程序 http://localhost:4040/api/v1 .开始: ./sbin/start-history-server.sh 这将在以下位置创建一个web界面: http://<server-url>:18080 默认情况下,列出不完整和已完成的应用程序和尝试。spark作业本身必须配置为记录事件,并将它们记录到同一个共享的可写目录中。例如,如果服务器配置了日志目录 hdfs://namenode/shared/spark-logs ,则客户端选项为:请参考https://spark.apache.org/docs/latest/monitoring.html 有关更多spark版本特定选项的详细信息。
/api/v1.
http://<server-url>:18080/api/v1
http://localhost:4040/api/v1
./sbin/start-history-server.sh
http://<server-url>:18080
hdfs://namenode/shared/spark-logs
1tuwyuhd2#
在程序结束时添加一个休眠调用来延迟它的完成怎么样?
2条答案
按热度按时间htrmnn0y1#
在apachespark文档中,端点安装在
/api/v1.
例如,对于历史服务器,它们通常可以在http://<server-url>:18080/api/v1
,对于正在运行的应用程序http://localhost:4040/api/v1
.开始:
./sbin/start-history-server.sh
这将在以下位置创建一个web界面:http://<server-url>:18080
默认情况下,列出不完整和已完成的应用程序和尝试。spark作业本身必须配置为记录事件,并将它们记录到同一个共享的可写目录中。例如,如果服务器配置了日志目录
hdfs://namenode/shared/spark-logs
,则客户端选项为:请参考https://spark.apache.org/docs/latest/monitoring.html 有关更多spark版本特定选项的详细信息。
1tuwyuhd2#
在程序结束时添加一个休眠调用来延迟它的完成怎么样?