我有一个文件位置的大列表。我想从这些位置读取Parquet地板,按列分组,进行计数,并按键减少。
var commaDelim = spark.sparkContext.textFile("s3://some_location")
var locs = commDelim.flatmap(l => l.split(","))
locs.map(loc => spark.read.parquet(loc).groupBy("col").count ...
不知道如何将count dataframe转换成一种可以按键减少的格式。
1条答案
按热度按时间kxeu7u2r1#
将列表文件直接传递给
parquet
功能如下