我有一个用例,需要使用列(它是一个guid列)对Dataframe进行重复数据消除。但我需要把它们存放在一个单独的地方,而不是把复制品扔掉。例如,如果我们有以下数据,带有schema(name,guid): (a, 1), (b, 2), (a, 2), (a, 3), (c, 1), (c, 4)
. 我想拆分数据集,以便: (a, 1), (b, 2), (a, 3), (c, 4)
在1部分和 (a, 2), (c, 1)
第二部分。如果我使用dropduplicates(col(“guid”)),第二部分就会丢失。有什么有效的方法可以做到这一点?
1条答案
按热度按时间iugsix8n1#
您可以指定一个行号,并根据行号是否等于1将Dataframe分成两部分。