adaboost原理和实现

发布时间：2016年12月07日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

上两篇说了决策树到集成学习的大概，这节我们通过adaboost来具体了解一下集成学习的简单做法。

集成学习有bagging和boosting两种不同的思路，bagging的代表是随机森林，boosting比较基础的adaboost，高级一点有GBDT，在这里我也说下我理解的这两个做法的核心区别：

随机森林的bagging是采用有放回抽样得到n个训练集，每个训练集都会有重复的样本，每个训练集数据都一样，然后对每个训练集生成一个决策树，这样生成的每个决策树都是利用了整个样本集的一部分，也就说每棵决策树只是学习了大部分，然后决策的时候综合每棵决策树的评分，最终得出一个总的评分

boosting的adaboost每次训练的时候用的是同一个数据集，但是前一棵决策树分错的样本在后面的权重会升高，相当于说，后面的决策树利用了前面决策树学习的结果，不断的优化这个结果，也就是说，后面的决策树恰恰擅长的是前面决策树不擅长（分错）的样本，相当于说，boosting的每棵决策树擅长的“领域”不一样，并且在擅长的领域都很厉害

而对比bagging，bagging中的每一棵树都是同样普通的决策树，相当于每棵决策树擅长的“领域”区分不大，也没有很擅长。

下面我们看下adaboost是如何工作的吧，这次我们使用更简单的例子。

这是二维平面的上的两个点，红色是正样本，绿色是负样本，如果使用强分类器，例如深度大于1的决策树，很简单就可以区分开了，或者使用逻辑回归，计算一下，就可以轻松得到一条直线把这两个类别的点区分开了，我们这里主要是先学习adaboost是如何把弱分类器组装成强大的强分类器以及boosting的学习效果

类别和之前不一样，这里的正负样本的类似是1，-1，原因是预测结果的分界线不一样，决策树是没有对类别做任何的操作，adaboost设计到多棵树的权重相加，使用0作为正负样本的分界线会更好

分类导航

adaboost原理和实现

网友评论

更多精彩分享