pyspark 如何在AWS Glue 3.0中运行GraphFrame?

yshpjwxd  于 2023-10-15  发布在  Spark
关注(0)|答案(1)|浏览(142)

如何在AWS Glue 3.0中使用GraphFrame?我看到只有Spark 2.x版本有python wheel包,但其他版本的Spark没有。我得到类加载异常

py4j.protocol.Py4JJavaError: An error occurred while calling o180.loadClass.
: java.lang.ClassNotFoundException: org.graphframes.GraphFramePythonAPI
    at java.net.URLClassLoader.findClass(URLClassLoader.java:387)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:418)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352)

我有graphframes的wheel包:0.8.2-spark3.1-s_2.12我已经给了--conf,并在python库中保存wheel包。

d5vmydt9

d5vmydt91#

您可以直接在代码中指定带有maven坐标的jar。最新版本的spark也提供了Graphframes jar。

可以在此位置找到Jars:https://spark-packages.org/package/graphframes/graphframes

from pyspark.sql import SparkSession

##### Adding the graphframes jar so that we can access GraphX API of Apache Spark in pyspark

spark = SparkSession.builder \
    .appName("MyApp") \
    .config('spark.jars.packages', 'graphframes:graphframes:0.8.2-spark2.4-s_2.11') \
    .getOrCreate()

相关问题