我是sparklyr和spark nlp的新手。有一个本地连接运行没有问题,测试数据正在保存和读回等。今天当我加载真实的的数据,这是一批文本数据的错误开始。从其他的讨论,它似乎是由试图通过一个YarnHive连接造成的,即使我有它设置为本地。我已经尝试了各种配置和重置路径,以在我的终端等。现在连本地电话都打不通。
看起来spark应该位于usr/lib/spark中。但实际上不是。它位于Users/user_name/spark中。我已经在命令行中安装了apache,它位于usr/lib/中,但在“apache spark”下,所以没有被引用。
1.在R Studio中运行Sys.getenv(“SPARK_HOME”)仍然显示“用户/用户名/spark”作为位置。
1.通过R重置SPARK_HOME位置
home <- "/usr/local/Cellar/apache-spark"
sc <- spark_connect(master = "yarn-client", spark_home = home, version = "3.3.0")
会传回下列错误:
Error in start_shell(master = master, spark_home = spark_home, spark_version = version, :
Failed to find 'spark2-submit' or 'spark-submit' under '/usr/local/Cellar/apache-spark', please verify SPARK_HOME.
1.将SPARK_HOME设置为它最初安装在Users文件夹中的位置不会改变此错误。
我不知道我是否应该安装一些依赖项来启用YARN配置单元或该怎么做?我已经尝试了以下配置:
conf <- spark_config()
conf$spark.driver.cores <- 2
conf$spark.driver.memory <- "3G"
conf$spark.executor.cores <- 2
conf$spark.executor.memory <- "3G"
conf$spark.executor.instances <- 5
#conf$sparklyr.log.console <- TRUE
conf$sparklyr.verbose <- TRUE
sc <- spark_connect(
master = "yarn",
version = "2.4.3",
config = conf,
spark_home = "usr/lib/spark"
)
来回更改spark_home。无论哪种方式都将得到此错误:
Error in start_shell(master = master, spark_home = spark_home, spark_version = version, :
SPARK_HOME directory 'usr/lib/spark' not found
在终端桌面安装apache_spark和spark_install()之间是否通过R进行交互?
为什么它不允许我继续在本地工作,或者文本数据需要一个配置单元?
spark_home <- spark_home_dir()
什么都不返回!我糊涂了
1条答案
按热度按时间0wi1tuuw1#
您可以尝试将R环境变量更改为
SPARK_HOME
,并在R会话中运行以下命令:Sys.setenv(SPARK_HOME = /path/where/you/installed/spark)