SparkHistoryServer在日志变大时停止在emr中工作

axkjgtzd 于 2021-05-27 发布在 Spark

关注(0)|答案(2)|浏览(368)

我正在使用emr在一个10tb的数据集上运行spark作业。我正在使用spark历史服务器来监视它的进度。但是，当日志变得非常大时，spark history服务器和emr ui都会停止更新。我的电子病历作业是否仍在运行，还是也停止了工作？
此外，当spark history服务器停止崩溃时，我的所有ec2示例的cpu利用率从>75%变为0%（随后又增加到<75%），emr控制台显示0个保留容器和所有释放的内存（之后也恢复正常）。
我的急诊室工作出什么事了吗？有什么方法可以让spark历史服务器在日志变大的时候继续工作吗？
谢谢。

apache-spark amazon-emr

来源：https://stackoverflow.com/questions/63803167/spark-history-server-stops-working-in-emr-when-logs-get-large

2条答案

按热度按时间

xesrikrc1#

将所有日志外部化到s3 bucket中
如果您感兴趣，还可以提供一些提示：
https://github.com/vaquarkhan/vaquarkhan/wiki/apache-spark-structured-streaming-and-aws-emr-memory-issue

赞(0）回复(0）举报 2021-05-27

2admgd592#

是的，这可能是由于大量的日志历史记录，您可以尝试计划/设置自动删除。
对于历史日志清理，可以设置以下属性以启用中的“设置自动清理” spark-defaults.conf 文件，然后重新启动服务器

spark.history.fs.cleaner.enabled true
spark.history.fs.cleaner.maxAge  12h
spark.history.fs.cleaner.interval 1h

赞(0）回复(0）举报 2021-05-27

我来回答

SparkHistoryServer在日志变大时停止在emr中工作

2条答案

相关问题

热门标签

最新问答