对于给定的 Dataframe ...
data = pd.DataFrame([[1., 6.5], [1., np.nan],[5, 3], [6.5, 3.], [2, np.nan]])
看起来像这样。
0 1
0 1.0 6.5
1 1.0 NaN
2 5.0 3.0
3 6.5 3.0
4 2.0 NaN
...我想创建第三列,其中第二列的所有缺失值都用连续数字替换。因此,结果应该如下所示:
0 1 2
0 1.0 6.5 NaN
1 1.0 NaN 1
2 5.0 3.0 NaN
3 6.5 3.0 NaN
4 2.0 NaN 2
(my Dataframe 具有更多的行,因此设想第二列中有70个缺失,从而第三列中的最后一个数字将是70)
如何创建第三列?
2条答案
按热度按时间oknwwptz1#
您可以这样做,我冒昧地重命名了列,以避免混淆我选择的内容,您可以使用以下命令对 Dataframe 执行相同操作:
下面是对这一行的一些解释:
编辑
你也可以用@Karl.D的建议换一种方式:
计时还表明,卡尔的方法对于较大的数据集会更快,但我会对此进行描述:
3ks5zfa02#
输出: