Sparklyr/Spark NLP通过YARN连接

4uqofj5v  于 2022-11-16  发布在  Apache
关注(0)|答案(1)|浏览(112)

我是sparklyr和spark nlp的新手。有一个本地连接运行没有问题,测试数据正在保存和读回等。今天当我加载真实的的数据,这是一批文本数据的错误开始。从其他的讨论,它似乎是由试图通过一个YarnHive连接造成的,即使我有它设置为本地。我已经尝试了各种配置和重置路径,以在我的终端等。现在连本地电话都打不通。
看起来spark应该位于usr/lib/spark中。但实际上不是。它位于Users/user_name/spark中。我已经在命令行中安装了apache,它位于usr/lib/中,但在“apache spark”下,所以没有被引用。
1.在R Studio中运行Sys.getenv(“SPARK_HOME”)仍然显示“用户/用户名/spark”作为位置。
1.通过R重置SPARK_HOME位置

home <- "/usr/local/Cellar/apache-spark"
sc <- spark_connect(master = "yarn-client", spark_home = home, version = "3.3.0")

会传回下列错误:

Error in start_shell(master = master, spark_home = spark_home, spark_version = version,  : 
  Failed to find 'spark2-submit' or 'spark-submit' under '/usr/local/Cellar/apache-spark', please verify SPARK_HOME.

1.将SPARK_HOME设置为它最初安装在Users文件夹中的位置不会改变此错误。
我不知道我是否应该安装一些依赖项来启用YARN配置单元或该怎么做?我已经尝试了以下配置:

conf <- spark_config()

conf$spark.driver.cores <- 2
conf$spark.driver.memory <- "3G"
conf$spark.executor.cores <- 2
conf$spark.executor.memory <- "3G"
conf$spark.executor.instances <- 5
#conf$sparklyr.log.console <- TRUE
conf$sparklyr.verbose <- TRUE

sc <- spark_connect(
  master = "yarn",
  version = "2.4.3",
  config = conf,
  spark_home = "usr/lib/spark"
)

来回更改spark_home。无论哪种方式都将得到此错误:

Error in start_shell(master = master, spark_home = spark_home, spark_version = version,  : 
  SPARK_HOME directory 'usr/lib/spark' not found

在终端桌面安装apache_spark和spark_install()之间是否通过R进行交互?
为什么它不允许我继续在本地工作,或者文本数据需要一个配置单元?

spark_home <- spark_home_dir()

什么都不返回!我糊涂了

0wi1tuuw

0wi1tuuw1#

您可以尝试将R环境变量更改为SPARK_HOME,并在R会话中运行以下命令:Sys.setenv(SPARK_HOME = /path/where/you/installed/spark)

相关问题