这个问题在这里已经有答案了:
在Pypark里怎么算[关闭](2个答案)
4个月前关门了。
我有一大堆书名。我要计算整个数据集中的每个标题。例如:
`title`
A
b
A
c
c
c
输出:
title fre
A 2
b 1
c 3
我正在寻找一种在hadoop中快速使用reduce函数的方法。我知道以下方法:
import pyspark.sql.functions as f
df.groupBy('title').agg(f.count('*').alias('count')).show()
我还需要得到少于10次出现的标题。
1条答案
按热度按时间5fjcxozz1#
如果您想使用RDD,可以尝试以下代码:
但我不确定这是否会比
df.groupBy('title').count()
.