pandas 在groupby之后根据发生次数创建二进制列

dauxcl2d 于 2023-08-01 发布在其他

关注(0)|答案(2)|浏览(133)

一个空df w特定的感兴趣列（col 1 -5）

dfw_columns = pd.DataFrame({
    "col1": [],
    "col2": [],
    "col3": [],
    "col4": [],
    "col5": []
})

字符串
df w实际条目

df = pd.DataFrame({
    "Name": ["abc", "abc", "abc", "def", "def", "ghi", "ghi"],
    "colids": ["col1", "col33", np.nan, "col5", "col1", "col2", np.nan]
})

型
根据每个Name和Colid在df中的引用（1或0），将值放置在dfw_columns中。
所需输出（填充空dfw_columns后）

desireddf = pd.DataFrame({
    "Name": ["abc", "def", "ghi"],
    "col1": [1,1, 0],
    "col2": [0,0, 1],
    "col3": [0,0, 0],
    "col4": [0,0, 0],
    "col5": [0,1,0]
})
desireddf

型

pandas

来源：https://stackoverflow.com/questions/76758741/create-binary-columns-after-groupby-based-on-occurrence

2条答案

按热度按时间

mbskvtky1#

IIUC，您可以pd.crosstab + .reindex：

cols_of_interest = ['col1', 'col2', 'col3', 'col4', 'col5']
out = pd.crosstab(df['Name'], df['colids']).reindex(columns=cols_of_interest, fill_value=0)
print(out)

字符串
图纸：

colids  col1  col2  col3  col4  col5
Name                                
abc        1     0     0     0     0
def        1     0     0     0     1
ghi        0     1     0     0     0

型

展开查看全部

赞(0）回复(0）举报 2023-08-01

ruoxqz4g2#

使用pivot如下。

df = pd.DataFrame({
    "Name": ["abc", "abc", "abc", "def", "def", "ghi", "ghi"],
    "colids": ["col1", "col3", np.nan, "col5", "col1", "col2", np.nan]
})
df = df.dropna()
df['value'] = 1
df.pivot(index = 'Name', columns = 'colids', values = 'value').fillna(0)

字符串
结果如下（注意，df不包括col4）。

colids  col1    col2    col3    col5
Name                
abc     1.0     0.0     1.0      0.0
def     1.0     0.0     0.0      1.0
ghi     0.0     1.0     0.0      0.0

型

展开查看全部

赞(0）回复(0）举报 2023-08-01

我来回答

pandas 在groupby之后根据发生次数创建二进制列

2条答案

相关问题

热门标签

最新问答