我在emr中使用jupyter笔记本来处理大量数据。在处理数据时,我看到以下错误:
An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
似乎我需要更新spark配置中的maxresultssize。如何从jupyter笔记本设置spark maxresultssize。
已经检查过这个帖子:spark 1.4增加maxresultsize内存
另外,在emr笔记本中,已经给出了spark上下文,有没有办法编辑spark上下文并增加maxresultssize
任何线索都会很有帮助。
谢谢
2条答案
按热度按时间busg9geu1#
您可以在spark会话开始时设置livy配置,请参阅https://github.com/cloudera/livy#request-身体
把这个放在代码的开头
通过在下一个单元格中打印会话来检查会话的设置:
这应该能解决问题
2skhul332#
我还不能评论,所以我会做出新的回答。公认的答案中有一个打字错误,使我有点头痛。小心复制/粘贴
潜水员-->司机
以下是您可以复制/粘贴的答案:)