如何在AWS Glue中导入Spark包？

irtuqstp 于 2022-11-16 发布在 Apache

关注(0)|答案(4)|浏览(181)

我想使用GrameFrames包，如果要在本地运行pyspark，我将使用以下命令：
~/hadoop/spark-2.3.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11
但是我该如何用这个包运行AWS Glue脚本呢？我在文档中什么都没有找到...

apache-spark

来源：https://stackoverflow.com/questions/53382166/how-to-import-spark-packages-in-aws-glue

4条答案

按热度按时间

f87krz0w1#

您可以提供一个路径，指向位于s3中的打包到zip归档文件中的额外库。
请查看此文档以了解更多详细信息

赞(0）回复(0）举报 2022-11-16

slsn1g292#

可以按如下方式使用图形框：
例如，从这里下载graphframes python库包文件。解压缩.tar.gz，然后重新归档到.zip。将其放在s3中您的glue作业可以访问的位置
设置涂胶作业时：

确保Python库路径引用zip文件
对于作业参数，需要{"--conf": "spark.jars.packages=graphframes:graphframes:0.6.0-spark2.3-s_2.11"}

赞(0）回复(0）举报 2022-11-16

iibxawm43#

每一个寻找答案的人，请阅读这篇评论。
要使用AWS Glue pySpark或Python-shell中的外部 Package ：
1)从以下url克隆存储库.. https://github.com/bhavintandel/py-packager/tree/master
git克隆git@github.com com
光盘 Package 机
2)在requirements.txt下添加所需的包。例如，
腐泥
更新setup. py下的版本和项目名称。例如，
版本=“0.1.0”
PACKAGE_NAME =“相依性”
3)运行以下“command 1”为pyspark创建.zip包，或者运行“command 2”为python-shell创建egg文件。
命令1：
sudo make编译压缩
命令2：
sudo制作bdist_egg
以上命令将在dist文件夹中生成包。
4)最后将这个包从dist目录上传到S3 bucket。然后后藤AWS Glue Job Console，编辑作业，找到脚本库选项，点击“python库路径”的文件夹图标。然后选择您的S3路径。
最后在粘合脚本中使用：
将pygeohash导入为pgh
搞定了！