如何使用spark data frame和partitionby子句将新数据附加到现有配置单元表

r7s23pms 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(446)

我有一个Dataframe，我正在使用partitionby写入配置单元表-

val df = Seq(
("day1", 1),
("day1", 2),
("day1", 3),
("day1", 4)
).toDF("day","id")

df.write.partitionBy("day").format("parquet").saveAsTable("mydb.day_table")

spark.sql("select * from mydb.day_table").show
+---+----+
| id| day|
+---+----+
|  1|day1|
|  2|day1|
|  3|day1|
|  4|day1|
+---+----+

spark.sql("show create table mydb.day_table").show(false)
+---------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                         |
+---------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE `mydb`.`day_table` (`id` INT, `day` STRING)
USING parquet
OPTIONS (
  `serialization.format` '1'
)
PARTITIONED BY (day)
|
+---------------------------------------------------------------------------------------------------------------------------------------+

如果我创建了另一个dataframe，并希望通过保持分区完好无损的方式将这个Dataframe的内容附加到同一个表中，那么我该怎么做呢？这样对吗？

val df2 = Seq(
("day2",5),
("day2",6)
).toDF("day","id")

df2.write.mode("append").partitionBy("day").format("parquet").saveAsTable("mydb.day_table")

我想要下面的输出，但是我想要表被分区 day 即使在我一直将数据附加到原始表之后。

spark.sql("select * from mydb.day_table").show(false)
+---+----+
|id |day |
+---+----+
|1  |day1|
|2  |day1|
|3  |day1|
|4  |day1|
|5  |day2|
|6  |day2|
+---+----+

我用的是scala和spark shell。谢谢。

Hive apache-spark-sql spark-dataframe

来源：https://stackoverflow.com/questions/50273325/how-to-append-new-data-to-existing-hive-table-using-spark-data-frame-and-partiti

1条答案

按热度按时间

qxgroojn1#

必须使用sparkDataframeapi
1）分区依据
2）保存表

df.\
write.\
format("parquet").\
mode(org.apache.spark.sql.SaveMode.Append).\
partitionBy("first").\
saveAsTable("example")

我看你也是这么做的。但你没有发布任何错误。

赞(0）回复(0）举报 2021-06-26

我来回答

如何使用spark data frame和partitionby子句将新数据附加到现有配置单元表

1条答案

相关问题

热门标签

最新问答