使用python可执行文件而不是spark提交spark作业

aij0ehis 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(425)

在pyspark程序中，一旦 pyspark 模块被添加到路径中，我可以导入 from pyspark.sql import SparkSession 并示例化 SparkSession .
何时可以使用 python3 可执行文件（例如。 python3 myApp.py 而不是 spark-submit myApp.py ? 我已经在客户端模式下进行了本地测试，看起来效果不错。那怎么办 cluster 模式？有什么必要使用 spark-submit 在某些情况下？
使用 python3 调用应用程序的可执行文件使得使用像pycharm这样的ide调试程序更容易（据我所知）。

apache-spark pyspark spark-submit

来源：https://stackoverflow.com/questions/66072130/submitting-spark-jobs-using-python-executable-instead-of-spark-submit

1条答案

按热度按时间

a9wyjsp71#

代码中需要以下变量，其值取决于python路径和pyspark python路径：

import os
import findspark
findspark.init('/usr/lib/spark')
os.environ['PYSPARK_PYTHON']="/usr/bin/python3"
os.environ['PYSPARK_DRIVER_PYTHON']="/usr/bin/python3"
os.environ['PYSPARK_SUBMIT_ARGS'] = """
    --name job_name
    --master yarn
    --deploy-mode client / cluster 
    pyspark-shell"""

您还可以定义其他配置。

赞(0）回复(0）举报 2021-07-13

我来回答

使用python可执行文件而不是spark提交spark作业

1条答案

相关问题

热门标签

最新问答