由于配置单元元存储连接问题,无法运行pyspark 2.x

ryevplcw  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(239)

运行时 pyspark 1.6.x很好。

17/02/25 17:35:41 INFO storage.BlockManagerMaster: Registered BlockManager
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.6.1
      /_/

Using Python version 2.7.13 (default, Dec 17 2016 23:03:43)
SparkContext available as sc, SQLContext available as sqlContext.
>>>

但在我重置之后 SPARK_HOME , PYTHONPATH 以及 PATH 要说Spark2.x的安装,事情很快就会变得一团糟
(a) 我必须手动删除一个德比 metastore_db 每次。
(二) pyspark 不启动:打印以下警告后挂起:

[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.42.1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
NOTE: SPARK_PREPEND_CLASSES is set, placing locally compiled Spark classes ahead of assembly.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
17/02/25 17:32:49 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/02/25 17:32:53 WARN metastore.ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0
17/02/25 17:32:53 WARN metastore.ObjectStore: Failed to get database default, returning NoSuchObjectException

我不需要/关心 hive 功能:但在spark 2.x中,它们很可能是必需的。最简单的工作配置是什么 hive 使 pyspark 2.X 开心吗?

khbbv19g

khbbv19g1#

您尝试过enablehivesupport功能吗?我在从1.6迁移到2.x时遇到了Dataframe问题,即使我没有访问配置单元。在生成器上调用该函数解决了我的问题(也可以将其添加到配置中。)
如果您使用pyspark shell来提供spark上下文,那么要启用hive支持,您需要通过config来实现。在你的 spark-defaults.conf 尝试添加 spark.sql.catalogImplementation hive .

相关问题