我正在pyspark中使用以下代码执行聚合数组收集:
df1=df.groupBy('key').agg(collect_list('value'))
我知道一些函数,比如把数据收集到一个节点上。有没有可能在利用分布式云计算能力的同时实现同样的结果?
eqqqjvef1#
这里似乎有点误会 collect 强制通过驱动程序收集数据,而不是分发数据鉴于 collect_list 以及 collect_set 默认情况下是分布式操作。
collect
collect_list
collect_set
1条答案
按热度按时间eqqqjvef1#
这里似乎有点误会
collect
强制通过驱动程序收集数据,而不是分发数据鉴于
collect_list
以及collect_set
默认情况下是分布式操作。