如何在Pyspark中简化对唯一值的测试？

uqdfh47h 于 2022-11-01 发布在 Spark

关注(0)|答案(1)|浏览(122)

我想检查Spark Dataframe中的一列是否只有唯一值。我可以使用df.groupby("key").count().agg({"count":"max"})，但这将始终处理整个表。
我希望Spark在发现任何重复值时能早点完成（最好是告诉我这个值）。这个想法是使用像.take(1)这样的机制，它可以缩短（除非所有的值都是唯一的）？！
有什么办法可以让我在Pyspark实现这一点吗？

pyspark

来源：https://stackoverflow.com/questions/73882708/how-can-i-shortcut-a-test-for-unique-values-in-pyspark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何在Pyspark中简化对唯一值的测试？

暂无答案！

相关问题

热门标签

最新问答