使用python可执行文件而不是spark提交spark作业

aij0ehis  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(425)

在pyspark程序中,一旦 pyspark 模块被添加到路径中,我可以导入 from pyspark.sql import SparkSession 并示例化 SparkSession .
何时可以使用 python3 可执行文件(例如。 python3 myApp.py 而不是 spark-submit myApp.py ? 我已经在客户端模式下进行了本地测试,看起来效果不错。那怎么办 cluster 模式?有什么必要使用 spark-submit 在某些情况下?
使用 python3 调用应用程序的可执行文件使得使用像pycharm这样的ide调试程序更容易(据我所知)。

a9wyjsp7

a9wyjsp71#

代码中需要以下变量,其值取决于python路径和pyspark python路径:

import os
import findspark
findspark.init('/usr/lib/spark')
os.environ['PYSPARK_PYTHON']="/usr/bin/python3"
os.environ['PYSPARK_DRIVER_PYTHON']="/usr/bin/python3"
os.environ['PYSPARK_SUBMIT_ARGS'] = """
    --name job_name
    --master yarn
    --deploy-mode client / cluster 
    pyspark-shell"""

您还可以定义其他配置。

相关问题