一直想把数据预处理的逻辑给理清楚点,在这里和大家一起分享。
一:缺失值的处理
删除缺失值
这是一种很常用的策略。
缺点:如果缺失值太多,最终删除到没有什么数据了。那就不好办了。
2.2 缺失值的填补
(1)均值法
根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。
缺点:改变了数据的分布,还有就是有的优化问题会对方差优化,这样会让对方差优化问题变得不准确。
(2)随机填补
一直想把数据预处理的逻辑给理清楚点,在这里和大家一起分享。
删除缺失值
这是一种很常用的策略。
缺点:如果缺失值太多,最终删除到没有什么数据了。那就不好办了。
2.2 缺失值的填补
(1)均值法
根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。
缺点:改变了数据的分布,还有就是有的优化问题会对方差优化,这样会让对方差优化问题变得不准确。
(2)随机填补