为什么在spark submit命令中只使用一个内核而不是32个？

q0qdq0h2 于 2021-07-09 发布在 Spark

关注(0)|答案(1)|浏览(416)

嗨，谢谢你的帮助，
我知道有很多关于这个问题的主题，我读了很多，尝试了很多解决方案，但是什么都没有发生，我的spark提交工作仍然是在我的32个可用核心上只使用一个核心。
使用spark submit命令，我启动了一个pyspark脚本。这个pyspark脚本对许多Parquet文件执行spark.sql命令（大约6000个文件，每个文件大约6m，总共有6亿个数据库元组）。
我使用一个aws示例，它有32个cpu和128个go，还有一个2to ebs dd，上面存储着我的Parquet文件（它不是一个hdfs文件系统）
我并不是以主版本的形式启动spark，只是在单个ec2示例的独立解决方案中使用它。
一切都很好，但进程需要2小时只用一个核心对我的32个核心，所以我希望减少进程时间使用所有可用的核心！我启动pyspark脚本时是这样的：

spark-submit --driver-memory 96G --executor-cores 24 ./my_pyspark.py input.txt output.txt

我试着用local添加主参数，如下所示：

spark-submit --master local[24] --driver-memory 96G ./my_pyspark.py input.txt output.txt

我尝试将spark作为服务器启动，并将url提供给主参数：

spark-class org.apache.spark.deploy.master.Master
    spark-submit --master spark://10.0.1.20:7077 --driver-memory 96G --executor-cores 24 ./my_pyspark.py input.txt output.txt

但这些解决方案都不管用。通过htop查看流程，我发现只使用了一个内核。我错过了什么？？？桑克斯

apache-spark Jobs Process Core

来源：https://stackoverflow.com/questions/66857391/why-only-one-core-used-instead-of-32-in-my-spark-submit-command

1条答案

按热度按时间

lpwwtiir1#

你的命令是错误的。
您不应该为驱动程序分配96g，而应该指定每个执行器的执行器数和核心数。
例如，您可以尝试：

spark-submit --driver-memory 8G --num-executors 15 --executors-memory 7 --executor-cores 2 ./my_pyspark.py input.txt output.txt

你也许应该用Yarn作为资源经理。 --master yarn 另外，在sparkcontext中定义master（“local”），重写spark submit命令，应该将其从代码中删除。

赞(0）回复(0）举报 2021-07-09

我来回答

为什么在spark submit命令中只使用一个内核而不是32个？

1条答案

相关问题

热门标签

最新问答