我正在将Dataframe写入配置单元表。总的来说,任务成功了,一切看起来都很好。当我在ui中查看时,插入任务如下所示
在插入之前,数据分布均匀,没有溢出(滴答声)。
我插入数据的方式
df
.coalesce(100)
.write
.mode(saveMode) // overwrite
.insertInto(tableName)
更新:添加sparksubmit
spark-submit \
--class ${MAIN_CLASS} \
--master yarn \
--deploy-mode client \
--executor-cores 2 \
--driver-memory 6G \
--executor-memory 4G \
--conf spark.app.name=${STAGE} \
--queue ${QUEUE_NAME} \
${TARGET_JAR} \
这是我的问题
def getDF = spark.table("myTableName")
.filter('time_key >= DATE1 && 'time_key <= DATE2)
.groupBy('c1, 'c2, 'c3)
.agg(count('*) as 'c4)
.select('c1,
concat_ws("#", 'c2, 'c3) as 'c5,
row_number() over
Window.partitionBy('c1).orderBy('c4.desc) as 'rn)
.groupBy('c1)
.agg(collect_list(when('rn <= 10, 'c5)),
collect_list('c5))
暂无答案!
目前还没有任何答案,快来回答吧!