我想使用GrameFrames包,如果要在本地运行pyspark,我将使用以下命令:~/hadoop/spark-2.3.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11但是我该如何用这个包运行AWS Glue脚本呢?我在文档中什么都没有找到...
~/hadoop/spark-2.3.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11
f87krz0w1#
您可以提供一个路径,指向位于s3中的打包到zip归档文件中的额外库。请查看此文档以了解更多详细信息
slsn1g292#
可以按如下方式使用图形框:例如,从这里下载graphframes python库包文件。解压缩.tar.gz,然后重新归档到.zip。将其放在s3中您的glue作业可以访问的位置设置涂胶作业时:
.tar.gz
.zip
{"--conf": "spark.jars.packages=graphframes:graphframes:0.6.0-spark2.3-s_2.11"}
iibxawm43#
每一个寻找答案的人,请阅读这篇评论。要使用AWS Glue pySpark或Python-shell中的外部 Package :1)从以下url克隆存储库.. https://github.com/bhavintandel/py-packager/tree/mastergit克隆git@github.com com光盘 Package 机2)在requirements.txt下添加所需的包。例如,腐泥更新setup. py下的版本和项目名称。例如,版本=“0.1.0”PACKAGE_NAME =“相依性”3)运行以下“command 1”为pyspark创建.zip包,或者运行“command 2”为python-shell创建egg文件。命令1:sudo make编译压缩命令2:sudo制作bdist_egg以上命令将在dist文件夹中生成包。4)最后将这个包从dist目录上传到S3 bucket。然后后藤AWS Glue Job Console,编辑作业,找到脚本库选项,点击“python库路径”的文件夹图标。然后选择您的S3路径。最后在粘合脚本中使用:将pygeohash导入为pgh搞定了!
h7appiyu4#
同时在涂胶作业中设置--user-jars-firs: "true"参数。
--user-jars-firs: "true"
4条答案
按热度按时间f87krz0w1#
您可以提供一个路径,指向位于s3中的打包到zip归档文件中的额外库。
请查看此文档以了解更多详细信息
slsn1g292#
可以按如下方式使用图形框:
例如,从这里下载graphframes python库包文件。解压缩
.tar.gz
,然后重新归档到.zip
。将其放在s3中您的glue作业可以访问的位置设置涂胶作业时:
{"--conf": "spark.jars.packages=graphframes:graphframes:0.6.0-spark2.3-s_2.11"}
iibxawm43#
每一个寻找答案的人,请阅读这篇评论。
要使用AWS Glue pySpark或Python-shell中的外部 Package :
1)从以下url克隆存储库.. https://github.com/bhavintandel/py-packager/tree/master
git克隆git@github.com com
光盘 Package 机
2)在requirements.txt下添加所需的包。例如,
腐泥
更新setup. py下的版本和项目名称。例如,
版本=“0.1.0”
PACKAGE_NAME =“相依性”
3)运行以下“command 1”为pyspark创建.zip包,或者运行“command 2”为python-shell创建egg文件。
命令1:
sudo make编译压缩
命令2:
sudo制作bdist_egg
以上命令将在dist文件夹中生成包。
4)最后将这个包从dist目录上传到S3 bucket。然后后藤AWS Glue Job Console,编辑作业,找到脚本库选项,点击“python库路径”的文件夹图标。然后选择您的S3路径。
最后在粘合脚本中使用:
将pygeohash导入为pgh
搞定了!
h7appiyu4#
同时在涂胶作业中设置
--user-jars-firs: "true"
参数。