spark分区:创建rdd分区而不是hive分区

nuypyhwy  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(364)

这是在配置单元中将sparkDataframe保存为动态分区表的后续步骤。我尝试在答案中使用建议,但无法在spark 1.6.1中使用
我正在尝试从dataframe以编程方式创建分区。以下是相关代码(改编自Spark测试):

hc.setConf("hive.metastore.warehouse.dir", "tmp/tests")
//    hc.setConf("hive.exec.dynamic.partition", "true")
//    hc.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
hc.sql("create database if not exists tmp")
hc.sql("drop table if exists tmp.partitiontest1")

Seq(2012 -> "a").toDF("year", "val")
  .write
  .partitionBy("year")
  .mode(SaveMode.Append)
  .saveAsTable("tmp.partitiontest1")
hc.sql("show partitions tmp.partitiontest1").show

完整文件在这里:https://gist.github.com/sashaov/7c65f03a51c7e8f9c9e018cd42aa4c4a
分区文件在文件系统上创建得很好,但hive抱怨表没有分区:

======================
HIVE FAILURE OUTPUT
======================
SET hive.support.sql11.reserved.keywords=false
SET hive.metastore.warehouse.dir=tmp/tests
OK
OK
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Table tmp.partitiontest1 is not a partitioned table
======================

看起来根本原因是 org.apache.spark.sql.hive.HiveMetastoreCatalog.newSparkSQLSpecificMetastoreTable 总是用空分区创建表。
我们非常感谢您的帮助。
编辑:还创建了spark-14927

8mmmxcuj

8mmmxcuj1#

我找到了一个解决方法:如果预先创建表,那么saveastable()就不会弄乱它。因此,以下工作:

hc.setConf("hive.metastore.warehouse.dir", "tmp/tests")
//    hc.setConf("hive.exec.dynamic.partition", "true")
//    hc.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
hc.sql("create database if not exists tmp")
hc.sql("drop table if exists tmp.partitiontest1")

// Added line:
hc.sql("create table tmp.partitiontest1(val string) partitioned by (year int)")   

Seq(2012 -> "a").toDF("year", "val")
  .write
  .partitionBy("year")
  .mode(SaveMode.Append)
  .saveAsTable("tmp.partitiontest1")
hc.sql("show partitions tmp.partitiontest1").show

此变通方法适用于1.6.1,但不适用于1.5.1

相关问题