sparklyr+rsparkling:连接到群集时出错

r8uurelv 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(399)

一段时间以来我一直在用 sparklyr 使用以下代码连接到公司hadoop群集的包：

library(sparklyr)

Sys.setenv(SPARK_HOME="/opt/spark/")
Sys.setenv(HADOOP_CONF_DIR="/etc/hadoop/conf.cloudera.yarn")
Sys.setenv(JAVA_HOME="/usr/lib/jvm/jre")

system('kinit -k -t user.keytab user@xyz')

sc <- spark_connect(master="yarn",
                config = list(
                  default = list(
                    spark.submit.deployMode= "client",
                    spark.yarn.keytab= "user.keytab",
                    spark.yarn.principal= "user@xyz",
                    spark.executor.instances= 20, 
                    spark.executor.memory= "4G",
                    spark.executor.cores= 4,
                    spark.driver.memory= "8G")))

一切正常，但当我想补充 rsparkling 使用类似代码的包：

library(h2o)
library(rsparkling)
library(sparklyr)

options(rsparkling.sparklingwater.version = '2.0')

Sys.setenv(SPARK_HOME="/opt/spark/")
Sys.setenv(HADOOP_CONF_DIR="/etc/hadoop/conf.cloudera.yarn")
Sys.setenv(JAVA_HOME="/usr/lib/jvm/jre")

system('kinit -k -t user.keytab user@xyz')

sc <- spark_connect(master="yarn",
                config = list(
                  default = list(
                    spark.submit.deployMode= "client",
                    spark.yarn.keytab= "user.keytab",
                    spark.yarn.principal= "user@xyz",
                    spark.executor.instances= 20, 
                    spark.executor.memory= "4G",
                    spark.executor.cores= 4,
                    spark.driver.memory= "8G")))

我得到一个错误：
有效错误（代码）：
连接到会话ID（9819）的sparklyr到端口（8880）时失败：sparklyr网关在60秒后检索端口信息时未响应路径：/opt/spark-2.0.0-bin-hadoop2.6/bin/spark-submit参数：--类，sparklyr.backend，--包，'ai.h2o:sparkling-water-core_2.11:2.0'，'ai.h2o:sparkling-water-ml_2.11:2.0'，'ai.h2o:sparkling-water-repl_2.11:2.0'，'/usr/lib64/r/library/sparklyr/java/sparklyr-2.0-2.11.jar'，88809819
----输出日志----
ivy default cache设置为：/opt/users/user/.ivy2/cache存储在中的包的jar:/opt/users/user/.ivy2/jars:：loading settings:：url=jar:file：/opt/spark-2.0.0-bin-hadoop2.6/jars/ivy-2.4.0.jar/org/apache/ivy/core/settings/ivysettings.xml ai.h2o#sparkling-water-coreŧu 2.11添加为依赖项ai.h2oŧsparkling-water-mlŧu 2.11添加为依赖项ai.h2oŧsparkling-water-replŧu 2.11添加为依赖项：：解析依赖项：：org.apache.sparkŧspark submit parent；1.0确认：[默认]
----错误日志----
此外：警告消息：1:in if（nchar（confige）==0）found<-false:条件的长度为1，将仅使用第一个元素2:in if（nchar（confige）==0）found<-false:条件的长度为1，将仅使用第一个元素
我是新来的 spark 以及 clusters 不知道现在该怎么办。任何帮助都将不胜感激。我的第一个想法不见了 jar 的文件 sparkling water 上 cluster 我说得对吗？

hadoop apache-spark r sparkling-water sparklyr

来源：https://stackoverflow.com/questions/42227531/sparklyr-rsparkling-error-while-connecting-to-a-cluster

1条答案

按热度按时间

ctrmrzij1#

您需要使用起泡水的确切版本号： options(rsparkling.sparklingwater.version = '2.0.5') 或者你可以直接从http://h2o.ai/download，将其解压并将上面的语句替换为： options(rsparkling.sparklingwater.location = "/tmp/sparkling-water-assembly_2.11-2.0.99999-SNAPSHOT-all.jar")

赞(0）回复(0）举报 2021-06-02

我来回答

sparklyr+rsparkling:连接到群集时出错

1条答案

相关问题

热门标签

最新问答