我们如何筛选 CID 从下面 df 其中 ID 以及 TS 是一样的。测向=idcidtsac1t1ac2t1ac3t2bc4t2需要输出数据框cidc1c2型谢谢您。
CID
df
ID
TS
mgdq6dx11#
您可以获取id和ts的每个分区的计数,并筛选计数大于或等于2的行。
from pyspark.sql import functions as F, Window df2 = df.withColumn( 'cnt', F.count('*').over(Window.partitionBy('ID', 'TS')) ).filter('cnt >= 2').select('CID') df2.show() +---+ |CID| +---+ | C1| | C2| +---+
1条答案
按热度按时间mgdq6dx11#
您可以获取id和ts的每个分区的计数,并筛选计数大于或等于2的行。