我有2个数据集:
df_1.head(4)
region postal_code
Adrar 1000
Broko 5633
Conan 4288
Cymus 7435
df_2.head(4)
Name Charges region postal_code Revenue
Lia HG Pintol 4522 345
Joss PX Inend 7455 142
Amph CT 5633 148
Andrew UY Liven 9033 147
第二个数据集在“region”列中有许多缺失值......但我们可以使用第一个数据集通过匹配postal_code的值来获得这些缺失值......例如,在df_2的第三行中,“region”列缺失,但通过将其相应的postal_code与df_1进行匹配,我们可以找到它的区域为“Broko”......有人能建议如何对其进行编码吗
3条答案
按热度按时间vyswwuz21#
您可以使用布尔索引和
map
:另一种效率较低的方法可能是:
输出量:
z9smfwbn2#
示例
代码
使用
map
和fillna
实验结果:
bq3bfh9z3#
试试这个: