运行时 pyspark
1.6.x很好。
17/02/25 17:35:41 INFO storage.BlockManagerMaster: Registered BlockManager
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 1.6.1
/_/
Using Python version 2.7.13 (default, Dec 17 2016 23:03:43)
SparkContext available as sc, SQLContext available as sqlContext.
>>>
但在我重置之后 SPARK_HOME
, PYTHONPATH
以及 PATH
要说Spark2.x的安装,事情很快就会变得一团糟
(a) 我必须手动删除一个德比 metastore_db
每次。
(二) pyspark
不启动:打印以下警告后挂起:
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.42.1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
NOTE: SPARK_PREPEND_CLASSES is set, placing locally compiled Spark classes ahead of assembly.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
17/02/25 17:32:49 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/02/25 17:32:53 WARN metastore.ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0
17/02/25 17:32:53 WARN metastore.ObjectStore: Failed to get database default, returning NoSuchObjectException
我不需要/关心 hive
功能:但在spark 2.x中,它们很可能是必需的。最简单的工作配置是什么 hive
使 pyspark 2.X
开心吗?
1条答案
按热度按时间khbbv19g1#
您尝试过enablehivesupport功能吗?我在从1.6迁移到2.x时遇到了Dataframe问题,即使我没有访问配置单元。在生成器上调用该函数解决了我的问题(也可以将其添加到配置中。)
如果您使用pyspark shell来提供spark上下文,那么要启用hive支持,您需要通过config来实现。在你的
spark-defaults.conf
尝试添加spark.sql.catalogImplementation hive
.