Spark 3.3.0与3.1.1相比的性能问题

c9qzyr3d 于 2023-06-30 发布在 Apache

关注(0)|答案(1)|浏览(261)

我正在将我的Spark版本从3.1.1升级到3.3.0（实际上是Glue 3.0到Glue 4.0），并面临性能问题。我可以在spark UI日志中看到出现了额外的shuffle。另外，我可以看到在3.1.1版本中有很多ReusedExchange，然而，在3.3.0中没有ReusedExcange。测试已经在相同的数据集和相同的转换上完成。
任何建议如何管理这个？
而且我两个都试过了

spark.sql.adaptive.enabled = false / true,

结果是一样的

apache-spark

来源：https://stackoverflow.com/questions/75798760/spark-3-3-0-performance-issue-comparing-to-3-1-1

1条答案

按热度按时间

vecaoik11#

从Spark 3.2开始，它默认启用了优化选项，在我的例子中，将spark.sql.adaptive.coalescePartitions.parallelismFirst设置为false解决了性能问题。
更多详情见https://dev.to/aplotnikov/spark-tip-disable-adaptive-query-execution-aqe-for-compute-intensive-tasks-5bl0

赞(0）回复(0）举报 2023-06-30

我来回答

Spark 3.3.0与3.1.1相比的性能问题

1条答案

相关问题

热门标签

最新问答