我有一列a、B、C、D a列的值为x1、x2、x3、x4、x5,创建一列x1、x2、x3,x4、x5,如果B、C和D有重复,则打印1
请使用pyspark或pythonPandas提供答案
输入
A B C D status_color
X1 a b c red
X2 a a b green
X3 a a b red
X4 a b c green
输出
B C D X1 X2 X3 X4
a b c red 0 0 green
a a b 0 green red 0
我试图找到列的重复项,然后创建一个列重复标记,如果其他列重复df['duplicate_flag']=df.duplicated(subset['B','C','D']),则打印status_color
我的问题是,我不知道如何将其与列A进行比较,并将其打印在X1、X2、X3、X4中
有人能帮上python吗?我是python的新手
2条答案
按热度按时间fv2wmkja1#
使用
groupby
+str.get_dummies
:输出
rryofs0p2#
使用
pandas.crosstab
:输出: