一直想把数据预处理的逻辑给理清楚点,在这里和大家一起分享。

一:缺失值的处理

  1. 删除缺失值

这是一种很常用的策略。

缺点:如果缺失值太多,最终删除到没有什么数据了。那就不好办了。

2.2 缺失值的填补

    (1)均值法

        根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。

缺点:改变了数据的分布,还有就是有的优化问题会对方差优化,这样会让对方差优化问题变得不准确。

    (2)随机填补

网友评论