我想检查Spark Dataframe中的一列是否只有唯一值。我可以使用df.groupby("key").count().agg({"count":"max"}),但这将始终处理整个表。我希望Spark在发现任何重复值时能早点完成(最好是告诉我这个值)。这个想法是使用像.take(1)这样的机制,它可以缩短(除非所有的值都是唯一的)?!有什么办法可以让我在Pyspark实现这一点吗?
df.groupby("key").count().agg({"count":"max"})
.take(1)
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!