在pyspark中使用collect\u list时java内存不足

jhdbpxl9 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(444)

我目前正在使用pyspark，并在一个有大约6亿条记录的表上运行一个查询。表本身约为300gb。我的查询如下所示：

select f1, collect_list(struct(f2, f3)) as fdata
from table
group by 1

目前，我得到了这个错误：


# java.lang.OutOfMemoryError: Java heap space

# -XX:OnOutOfMemoryError="kill -9 %p"

# Executing /bin/sh -c "kill -9 1010"...

Killed

另一件事是 (f2, f3) 元组不是偶数。一些 f1 可能有10万个这样的元组 f1 可能只有5个。我怀疑 collect_list 引起了一些问题。
我总是可以增加集群的大小，但是我想知道是否可以对表做些什么。分区依据 f1 也不是一个选择，因为它有很高的维度。我没有太多的经验与Spark或Hive，所以任何帮助将不胜感激。

Java hadoop Hive pyspark Database

来源：https://stackoverflow.com/questions/48393490/java-running-out-of-memory-when-using-collect-list-in-pyspark