如何计算pyspark Dataframe (2.1.0)中键的出现次数

bgibtngc 于 2021-08-25 发布在 Java

关注(0)|答案(2)|浏览(335)

上下文

假设我有以下 Dataframe ：

col1 | col2 | col3
a    | toto | 1
a    | toto | 2
a    | toto | 45
a    | toto | 789
a    | toto | 456
b    | titi | 4
b    | titi | 8

具有 col1 作为主键。
我想知道如何才能确定输入的是哪个键 col1 在 Dataframe 中出现的次数少于5次。
因此，输出应为：

col1 | col2 | col3
b    | titi |

到目前为止，我提出了以下解决方案：

anc_ref_window = Window.partitionBy("col1")
df\
    .withColumn("temp_one", lit(1)) \
    .withColumn("count", sum(col("temp_one")).over(anc_ref_window)) \
    .drop("temp_one") \
    .filter(col("count") < 5) \
    .drop("count") \
    .show()

它给出了以下结果：

col1 | col2 | col3
b    | titi | 4
b    | titi | 8

问题

1-这是解决问题的正确方法吗？
2-我如何才能只获得预期的输出？在我的pyspark（2.1.0）版本中，似乎没有类似的麦加主义 select distinct col1,col2 就像我通过 Impala 做的那样（例如）。
编辑：
col3中的输出值对我来说并不重要。

python apache-spark pyspark apache-spark-2.0

来源：https://stackoverflow.com/questions/68303077/how-to-count-the-number-of-occurence-of-a-key-in-pyspark-dataframe-2-1-0

2条答案

按热度按时间

baubqpgj1#

@koilaro引导我走向 distinct . 但是，它不提供在中指示列名的功能 pyspark 2.1.0 .
然而， dropDuplicates 该工作是否：

df\
    .withColumn("temp_one", lit(1)) \
    .withColumn("count", sum(col("temp_one")).over(anc_ref_window)) \
    .drop("temp_one") \
    .filter(col("count") < 5) \
    .drop("count") \
    .dropDuplicates(["col1"])

赞(0）回复(0）举报 2021-08-25

mnemlml82#

另一种方法：

df_lessthan5 = df.groupBy(col("col1")).count() \
                 .filter(col("count") < 5) \
                 .drop(col("count"))

df_distinct = df.drop(col("col3")).distinct()

result = df_distinct.join(df_lessthan5, ['col1'], 'inner')

结果:

result.show()
+----+----+
|col1|col2|
+----+----+
|   b|titi|
+----+----+

与窗口操作相比，性能方面：
如果您确信您的窗口列（col1）不是高度倾斜的，那么它将稍微好一点或与此groupby解决方案相当。
但是如果你的 col1 是高度倾斜的，那么它将不会被正确地并行化，1个任务必须完成所有主要操作。在这种情况下，您应该选择groupby+join

赞(0）回复(0）举报 2021-08-25

我来回答

如何计算pyspark Dataframe (2.1.0)中键的出现次数

上下文

问题

2条答案

相关问题

热门标签

最新问答