在emr笔记本电脑jupyter中设置spark.driver.maxresultsize

lmvvr0a8  于 2021-05-27  发布在  Spark
关注(0)|答案(2)|浏览(702)

我在emr中使用jupyter笔记本来处理大量数据。在处理数据时,我看到以下错误:

An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

似乎我需要更新spark配置中的maxresultssize。如何从jupyter笔记本设置spark maxresultssize。
已经检查过这个帖子:spark 1.4增加maxresultsize内存
另外,在emr笔记本中,已经给出了spark上下文,有没有办法编辑spark上下文并增加maxresultssize
任何线索都会很有帮助。
谢谢

busg9geu

busg9geu1#

您可以在spark会话开始时设置livy配置,请参阅https://github.com/cloudera/livy#request-身体
把这个放在代码的开头

%%configure -f
{"conf":{"spark.driver.maxResultSize":"15G"}}

通过在下一个单元格中打印会话来检查会话的设置:

print(spark.conf.get('spark.driver.maxResultSize'))

这应该能解决问题

2skhul33

2skhul332#

我还不能评论,所以我会做出新的回答。公认的答案中有一个打字错误,使我有点头痛。小心复制/粘贴
潜水员-->司机
以下是您可以复制/粘贴的答案:)

%%configure -f
{"conf":{"spark.driver.maxResultSize":"15G"}}

相关问题