我有下面的Dataframe。
Column_1 Column_2
1 A
1 X
2 X
3 B
3 X
4 C
4 D
在上面的数据框中,第1列中可以有多条相同值的记录。我只需要删除那些条目数大于且在第2列中有x的记录。如果列2有两个不同的值,比如c和d,我必须保留它们。只有当一个记录有多个条目但其中一个条目有x时,我才必须将它们从Dataframe中删除。请注意,如果在第2列中只有一条记录带有x,则不应删除该记录。
预期产量:
Column_1 Column_2
1 A
2 X
3 B
4 C
4 D
请让我知道这是否可以在java spark中实现。我能够完全删除x记录,但不知道如何实现上述目标。
谢谢您。
2条答案
按热度按时间oknwwptz1#
完整的解释内联工作代码,输入csv看起来像
relj7zay2#
它是scala,但java看起来几乎相同: