spark数据插入过程中的Hive溢出和数据分布不均匀

q7solyqu  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(247)

我正在将Dataframe写入配置单元表。总的来说,任务成功了,一切看起来都很好。当我在ui中查看时,插入任务如下所示

在插入之前,数据分布均匀,没有溢出(滴答声)。

我插入数据的方式

df
.coalesce(100)
.write
.mode(saveMode) // overwrite
.insertInto(tableName)

更新:添加sparksubmit

spark-submit \
--class ${MAIN_CLASS} \
--master yarn \
--deploy-mode client \
--executor-cores 2 \
--driver-memory 6G \
--executor-memory 4G \
--conf spark.app.name=${STAGE} \
--queue ${QUEUE_NAME} \
${TARGET_JAR} \

这是我的问题

def getDF = spark.table("myTableName")
    .filter('time_key >= DATE1 && 'time_key <= DATE2)
    .groupBy('c1, 'c2, 'c3)
    .agg(count('*) as 'c4)
    .select('c1,
      concat_ws("#", 'c2, 'c3) as 'c5,
      row_number() over
        Window.partitionBy('c1).orderBy('c4.desc) as 'rn)
    .groupBy('c1)
    .agg(collect_list(when('rn <= 10, 'c5)),
      collect_list('c5))

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题