上下文
假设我有以下 Dataframe :
col1 | col2 | col3
a | toto | 1
a | toto | 2
a | toto | 45
a | toto | 789
a | toto | 456
b | titi | 4
b | titi | 8
具有 col1
作为主键。
我想知道如何才能确定输入的是哪个键 col1
在 Dataframe 中出现的次数少于5次。
因此,输出应为:
col1 | col2 | col3
b | titi |
到目前为止,我提出了以下解决方案:
anc_ref_window = Window.partitionBy("col1")
df\
.withColumn("temp_one", lit(1)) \
.withColumn("count", sum(col("temp_one")).over(anc_ref_window)) \
.drop("temp_one") \
.filter(col("count") < 5) \
.drop("count") \
.show()
它给出了以下结果:
col1 | col2 | col3
b | titi | 4
b | titi | 8
问题
1-这是解决问题的正确方法吗?
2-我如何才能只获得预期的输出?在我的pyspark(2.1.0)版本中,似乎没有类似的麦加主义 select distinct col1,col2
就像我通过 Impala 做的那样(例如)。
编辑:
col3中的输出值对我来说并不重要。
2条答案
按热度按时间baubqpgj1#
@koilaro引导我走向
distinct
. 但是,它不提供在中指示列名的功能pyspark 2.1.0
.然而,
dropDuplicates
该工作是否:mnemlml82#
另一种方法:
结果:
与窗口操作相比,性能方面:
如果您确信您的窗口列(col1)不是高度倾斜的,那么它将稍微好一点或与此groupby解决方案相当。
但是如果你的
col1
是高度倾斜的,那么它将不会被正确地并行化,1个任务必须完成所有主要操作。在这种情况下,您应该选择groupby+join