ModuleNotFoundError:与EMR Serverless一起使用时没有名为“pyspark.sql”的模块

ffvjumwh  于 2024-01-06  发布在  Spark
关注(0)|答案(1)|浏览(209)

当我尝试在EMR无服务器上运行作业时,出现以下错误-
ModuleNotFoundError:没有名为“pyspark.sql”的模块。请参阅有关如何将python库与EMR Serverless一起使用的用户指南。
当我试图将pyspark.sql导入位于zip包中的python文件时,就会发生这种情况。
文件-

  1. pyspark.zip
  2. |--__init__.py
  3. |--spark.py

字符串
内容-

  1. #__init__.py
  2. from .spark import *
  3. #spark.py
  4. from pyspark.sql import SparkSession
  5. def run():
  6. print("Create Spark Session")
  7. spark_session = SparkSession\
  8. .builder\
  9. .appName("First pyspark project")\
  10. .getOrCreate()


我给这份工作的Spark财产-
--conf spark.submit.pyFiles=s3://my-bucket/pyspark.zip
--conf spark.executorEnv.PYSPARK_PYTHON=python
我担心我错过了一些东西。我应该安装它还是什么?我所做的就是将项目压缩成zip文件并上传到S3。

qv7cva1a

qv7cva1a1#

我也遇到了这个问题。你给作业的spark属性不正确。
对于EMR,它应该是:

  1. spark.yarn.dist.pyFiles=s3://my-bucket/pyspark.zip

字符串

相关问题