pyspark 如何在AWS Glue 3.0中运行GraphFrame?

yshpjwxd  于 2023-10-15  发布在  Spark
关注(0)|答案(1)|浏览(149)

如何在AWS Glue 3.0中使用GraphFrame?我看到只有Spark 2.x版本有python wheel包,但其他版本的Spark没有。我得到类加载异常

  1. py4j.protocol.Py4JJavaError: An error occurred while calling o180.loadClass.
  2. : java.lang.ClassNotFoundException: org.graphframes.GraphFramePythonAPI
  3. at java.net.URLClassLoader.findClass(URLClassLoader.java:387)
  4. at java.lang.ClassLoader.loadClass(ClassLoader.java:418)
  5. at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352)

我有graphframes的wheel包:0.8.2-spark3.1-s_2.12我已经给了--conf,并在python库中保存wheel包。

d5vmydt9

d5vmydt91#

您可以直接在代码中指定带有maven坐标的jar。最新版本的spark也提供了Graphframes jar。

可以在此位置找到Jars:https://spark-packages.org/package/graphframes/graphframes

  1. from pyspark.sql import SparkSession
  2. ##### Adding the graphframes jar so that we can access GraphX API of Apache Spark in pyspark
  3. spark = SparkSession.builder \
  4. .appName("MyApp") \
  5. .config('spark.jars.packages', 'graphframes:graphframes:0.8.2-spark2.4-s_2.11') \
  6. .getOrCreate()

相关问题