在emr笔记本电脑jupyter中设置spark.driver.maxresultsize

lmvvr0a8 于 2021-05-27 发布在 Spark

关注(0)|答案(2)|浏览(720)

我在emr中使用jupyter笔记本来处理大量数据。在处理数据时，我看到以下错误：

An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

似乎我需要更新spark配置中的maxresultssize。如何从jupyter笔记本设置spark maxresultssize。
已经检查过这个帖子：spark 1.4增加maxresultsize内存
另外，在emr笔记本中，已经给出了spark上下文，有没有办法编辑spark上下文并增加maxresultssize
任何线索都会很有帮助。
谢谢

apache-spark amazon-emr jupyter-notebook spark-notebook

来源：https://stackoverflow.com/questions/61728152/setting-spark-driver-maxresultsize-in-emr-notebook-jupyter

2条答案

按热度按时间

busg9geu1#

您可以在spark会话开始时设置livy配置，请参阅https://github.com/cloudera/livy#request-身体
把这个放在代码的开头

%%configure -f
{"conf":{"spark.driver.maxResultSize":"15G"}}

通过在下一个单元格中打印会话来检查会话的设置：

print(spark.conf.get('spark.driver.maxResultSize'))

这应该能解决问题

赞(0）回复(0）举报 2021-05-27

2skhul332#

我还不能评论，所以我会做出新的回答。公认的答案中有一个打字错误，使我有点头痛。小心复制/粘贴
潜水员-->司机
以下是您可以复制/粘贴的答案：）

%%configure -f
{"conf":{"spark.driver.maxResultSize":"15G"}}

赞(0）回复(0）举报 2021-05-27

我来回答

在emr笔记本电脑jupyter中设置spark.driver.maxresultsize

2条答案

相关问题

热门标签

最新问答