pyspark 数据块- Photon内存不足

oxalkeyp 于 2023-11-16 发布在 Spark

关注(0)|答案(2)|浏览(127)

我尝试在启用光子的情况下使用databricks spark读取S3中的json文件目录。json目录的大小约为100 - 120 GB

df = (spark
         .read
         .option("multiline", True)
         .json(json_dir_path)
         .schema(json_schema)
        )

df.write.format('delta').saveAsTable("table_name")

字符串
这会抛出一个错误：

Caused by: org.apache.spark.memory.SparkOutOfMemoryError: Photon ran out of memory while executing this query.
Photon failed to reserve 1728.0 MiB for simdjson internal usage, in SimdJsonReader, in JsonFileScanNode(id=3618, output_schema=[string, string, array<struct<string, string, string, string>>, string, string, ... 1 more]), in task.

型
然而，这在光子未启用时有效。使用光子处理数据砖中的大型json文件时，需要指定什么配置吗？

pyspark

来源：https://stackoverflow.com/questions/77287688/databricks-photon-ran-out-of-memory

2条答案

按热度按时间

bzzcjhmw1#

我们最近在启用Photon的集群配置中遇到了一个问题。我们也开始耗尽内存。我们通过添加更多内存并减少执行器数量来“修复”它，因此每个执行器都有更多的可用内存。但回想起来，对于特定的工作流，最好是关闭Photon。

赞(0）回复(0）举报 2023-11-16

atmip9wb2#

我们遇到了类似的情况，一个SQL查询6周前在XL无服务器仓库上运行良好，但现在即使在3XL或4XL无服务器仓库上也无法运行，尽管表大小增加了微不足道（从3.2 TB增加到3.3 TB）。错误（大约30秒后）是：

Photon ran out of memory while executing this query.
Photon failed to reserve 763.6 MiB for var-len data, in ShuffleExchangeSinkNode(id=1676, output_schema=[double, timestamp, timestamp, double, double, ... 17 more]), in task.
Memory usage:
Total task memory (including non-Photon): 1719.2 MiB
task: allocated 868.5 MiB, tracked 1719.2 MiB, untracked allocated 0.0 B, peak 1982.9 MiB
BufferPool: allocated 8.3 MiB, tracked 128.0 MiB, untracked allocated 0.0 B, peak 128.0 MiB
DataWriter: allocated 0.0 B, tracked 0.0 B, untracked allocated 0.0 B, peak 0.0 B
FileScanNode(id=1660, output_schema=[double, double, timestamp, double, double, ... 13 more]): allocated 6.1 MiB, tracked 737.1 MiB, untracked allocated 0.0 B, peak 737.8 MiB
BufferPool: allocated 6.1 MiB, tracked 737.1 MiB, untracked allocated 0.0 B, peak 737.1 MiB

字符串
最后，我们使用一个较小的集群（没有Photon）（集群大小大约等于XL无服务器仓库）来运行查询。然而，由于这是一个直接的SQL查询，我们更希望在无服务器仓库上运行，这样我们可以更好地访问更高性能的计算（和更好的日志记录）。

赞(0）回复(0）举报 2023-11-16

我来回答

pyspark 数据块- Photon内存不足

2条答案

相关问题

热门标签

最新问答