我在本地模式下在1个ec2示例上运行spark3.0。我想今天能够在并行的2个作业中运行多个python脚本,以便提供对我使用的spark会话的访问-
spark = SparkSession.builder.appName(app_name) \
.config("spark.jars.packages", "io.delta:delta-core_2.12:0.7.0") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
.getOrCreate()
但是在ec2上,我看到2个spark进程正在运行,打开了2个ui(4040/4041端口),最重要的是这2个脚本不能使用在hive metastore derby上运行的spark.catalog。
这两个作业如何共享同一个spark会话?
1条答案
按热度按时间qyyhg6bp1#
可以使用hivederbyservermode,链接中的指令非常清晰,可以正常工作
https://cwiki.apache.org/confluence/display/hive/hivederbyservermode