已关闭。此问题为opinion-based。当前不接受答案。
**想要改进此问题吗?**请更新此问题,以便editing this post可以用事实和引文来回答。
昨天关门了。
Improve this question
我有一个 Dataframe tempreature_df,其中柱温有14个缺失值类型MAR tempreature_df.info()
如果我们的目标是绘制多个箱线图来显示温度在各月间的集中趋势和变化,那么我们应该如何最好地处理缺失值?
我想用缺失的月份的平均值来填补缺失的值,所以如果一月份的温度缺失,我会用一月份的平均值来填补,以此类推,这是个好主意吗?还是用温度列的总平均值来填补缺失的值更好?如下所示:温度_df ['温度'].填充(温度_df ['温度'].平均值())
你能解释一下什么是最好的方法吗?为什么?
..........................................
1条答案
按热度按时间mxg2im7a1#
如何最好地处理这个问题取决于你,没有技术上的“正确”或“错误”方法。如果观测值的数量不是问题,那么最好的解决方案是丢弃包含缺失值的观测值,因为这些值的任何插值都可能导致数据集的偏倚。
也就是说,并不总是可以/希望放弃观测值。使用整个数据集的平均值听起来并不像是正确的做法,因为您不会期望1月份的温度记录是全年温度的平均值。
计算一月份的平均值似乎是一种合理的方法。但是,假设一月份的平均值是7摄氏度。现在,假设您的缺失值正处于寒流之中,因此缺失值周围一周的温度从未超过0摄氏度。显然,使用7摄氏度的平均值可能不会给予“真实”值。在本例中,较小的加窗平均值将更有意义。
我希望这已经说明了如何没有通用的方法可以使用,相反,你应该检查数据,并使用一些洞察力和常识来确定价值。