我有一个没有互联网接入的服务器,我想使用三角洲湖。所以在spark会议中正常使用delta lake是行不通的。从pyspark.sql导入sparksession
spark = SparkSession \
.builder \
.appName("...") \
.master("...") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
.getOrCreate()
我应该在哪里复制delta lake github存储库?如何将spark会话指向正确的库
1条答案
按热度按时间sulc1iza1#
感谢@blackbishop,我找到了在pyspark中添加第三方javajar文件的答案
对于delta-lake,下载jar文件:delta-core\u2\u12\u0.8.0.jar
您可以在运行时使用spark配置将路径添加到jar文件。
举个例子:
有关更多信息,请参阅文档。
对于jupyter笔记本:
链接到我找到它的来源:https://github.com/graphframes/graphframes/issues/104