我有一个包含250,000个样本的数据集。列“CHANNEL”有7个缺失值。我想删除这7行。下面是我的代码:
mask = df_train["CHANNEL"].notnull()
df_train = df_train[mask]
我检查了形状
df_train.shape
它正确地输出了249993行,但是,当我尝试输出整个数据集时,它仍然显示从0到249999的索引,如下图所示:
enter image description here
我还检查了df_train的每列中缺失值的数量,每个都是零。这个问题很重要,因为我想稍后做串联,出现了一些问题。我不确定在使用上述命令时是否遗漏了一些要点。我将感谢任何建议和评论!
1条答案
按热度按时间qvtsj1bj1#
尝试使用dropna()
您可能会看到末尾仍具有索引249999,这是因为原始索引未更改。要重置新数据框的索引而不包含缺失值,可使用reset_index()