如何在Pyspark中简化对唯一值的测试?

uqdfh47h  于 2022-11-01  发布在  Spark
关注(0)|答案(1)|浏览(122)

我想检查Spark Dataframe中的一列是否只有唯一值。我可以使用df.groupby("key").count().agg({"count":"max"}),但这将始终处理整个表。
我希望Spark在发现任何重复值时能早点完成(最好是告诉我这个值)。这个想法是使用像.take(1)这样的机制,它可以缩短(除非所有的值都是唯一的)?!
有什么办法可以让我在Pyspark实现这一点吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题