我运行的是spark代码,它写入一个hive分区表。
df.write.mode(SaveMode.Overwrite).format("orc").insertInto("s**000h.test")
在内部,所有执行者都在向hive stage区域写入数据(.hive-staging\u hive\u 2020-03-30\u 13-47-16\u 727\u 5670185411499574661-1),与我将数据显式写入hdfs目录时相比,这需要更多的时间,如下所示。 df.write.mode(mode).format("orc").partitionBy("dept_id").save(tempPath)
900个分区的时差大约为1小时。
你能解释一下这种行为吗。
暂无答案!
目前还没有任何答案,快来回答吧!