我正在cloudera群集上运行r,并通过Yarn连接到spark:
sc <- spark_connect(master = "yarn-client",
config = conf,
spark_home = Sys.getenv("SPARK_HOME")
)
我正在打开一个这样的连接并执行一些代码a)从r studio服务器内部,b)从r shell,c)从hana存储过程。我注意到,即使同一个用户在这三种情况下都运行r,我也不能共享同一个连接。
例如,我有一个开放的连接 sc
但在b)和c)中 spark_connection_find(master = "yarn-client")
仅提供空列表。我必须在b)和c)中创建另一个spark连接,而不是重用a)中的现有连接。问题是,c)中的存储过程被多次调用。每次创建一个新的连接都需要花费大量的时间,我想节省这些时间。
那么,有没有办法建立一个全球Spark连接 sc
在r工作区中,可以从a)、b)或c)访问?
谢谢,马库斯
暂无答案!
目前还没有任何答案,快来回答吧!