如何在AWS Glue中导入Spark包?

irtuqstp  于 2022-11-16  发布在  Apache
关注(0)|答案(4)|浏览(179)

我想使用GrameFrames包,如果要在本地运行pyspark,我将使用以下命令:
~/hadoop/spark-2.3.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11
但是我该如何用这个包运行AWS Glue脚本呢?我在文档中什么都没有找到...

f87krz0w

f87krz0w1#

您可以提供一个路径,指向位于s3中的打包到zip归档文件中的额外库。
请查看此文档以了解更多详细信息

slsn1g29

slsn1g292#

可以按如下方式使用图形框:
例如,从这里下载graphframes python库包文件。解压缩.tar.gz,然后重新归档到.zip。将其放在s3中您的glue作业可以访问的位置
设置涂胶作业时:

  • 确保Python库路径引用zip文件
  • 对于作业参数,需要{"--conf": "spark.jars.packages=graphframes:graphframes:0.6.0-spark2.3-s_2.11"}
iibxawm4

iibxawm43#

每一个寻找答案的人,请阅读这篇评论。
要使用AWS Glue pySpark或Python-shell中的外部 Package :
1)从以下url克隆存储库.. https://github.com/bhavintandel/py-packager/tree/master
git克隆git@github.com com
光盘 Package 机
2)在requirements.txt下添加所需的包。例如,
腐泥
更新setup. py下的版本和项目名称。例如,
版本=“0.1.0”
PACKAGE_NAME =“相依性”
3)运行以下“command 1”为pyspark创建.zip包,或者运行“command 2”为python-shell创建egg文件。
命令1:
sudo make编译压缩
命令2:
sudo制作bdist_egg
以上命令将在dist文件夹中生成包。
4)最后将这个包从dist目录上传到S3 bucket。然后后藤AWS Glue Job Console,编辑作业,找到脚本库选项,点击“python库路径”的文件夹图标。然后选择您的S3路径。
最后在粘合脚本中使用:
将pygeohash导入为pgh
搞定了!

h7appiyu

h7appiyu4#

同时在涂胶作业中设置--user-jars-firs: "true"参数。

相关问题