由于配置单元元存储连接问题，无法运行pyspark 2.x

ryevplcw 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(237)

运行时 pyspark 1.6.x很好。

17/02/25 17:35:41 INFO storage.BlockManagerMaster: Registered BlockManager
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.6.1
      /_/

Using Python version 2.7.13 (default, Dec 17 2016 23:03:43)
SparkContext available as sc, SQLContext available as sqlContext.
>>>

但在我重置之后 SPARK_HOME , PYTHONPATH 以及 PATH 要说Spark2.x的安装，事情很快就会变得一团糟
（a）我必须手动删除一个德比 metastore_db 每次。
（二） pyspark 不启动：打印以下警告后挂起：

[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.42.1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
NOTE: SPARK_PREPEND_CLASSES is set, placing locally compiled Spark classes ahead of assembly.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
17/02/25 17:32:49 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/02/25 17:32:53 WARN metastore.ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0
17/02/25 17:32:53 WARN metastore.ObjectStore: Failed to get database default, returning NoSuchObjectException

我不需要/关心 hive 功能：但在spark 2.x中，它们很可能是必需的。最简单的工作配置是什么 hive 使 pyspark 2.X 开心吗？

Hive apache-spark pyspark

来源：https://stackoverflow.com/questions/42463760/unable-to-run-pyspark-2-x-due-to-hive-metastore-connectivity-issues

1条答案

按热度按时间

khbbv19g1#

您尝试过enablehivesupport功能吗？我在从1.6迁移到2.x时遇到了Dataframe问题，即使我没有访问配置单元。在生成器上调用该函数解决了我的问题(也可以将其添加到配置中。）
如果您使用pyspark shell来提供spark上下文，那么要启用hive支持，您需要通过config来实现。在你的 spark-defaults.conf 尝试添加 spark.sql.catalogImplementation hive .

赞(0）回复(0）举报 2021-06-26

我来回答

由于配置单元元存储连接问题，无法运行pyspark 2.x

1条答案

相关问题

热门标签

最新问答