用scikit-learn学习BIRCH聚类

发布时间：2016年12月20日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

在BIRCH聚类算法原理中，我们对BIRCH聚类算法的原理做了总结，本文就对scikit-learn中BIRCH算法的使用做一个总结。

1. scikit-learn之BIRCH类

　　　　在scikit-learn中，BIRCH类实现了原理篇里讲到的基于特征树CF Tree的聚类。因此要使用BIRCH来聚类，关键是对CF Tree结构参数的处理。

　　　　在CF Tree中，几个关键的参数为内部节点的最大CF数B，叶子节点的最大CF数L，叶节点每个CF的最大样本半径阈值T。这三个参数定了，CF Tree的结构也基本确定了，最后的聚类效果也基本确定。可以说BIRCH的调参就是调试B,L和T。

　　　　至于类别数K，此时反而是可选的，不输入K，则BIRCH会对CF Tree里各叶子节点CF中样本的情况自己决定类别数K值，如果输入K值，则BIRCH会CF Tree里各叶子节点CF进行合并，直到类别数为K。

2. BIRCH类参数

　　　　在scikit-learn中，BIRCH类的重要参数不多，下面一并讲解。

　　　　1) threshold:即叶节点每个CF的最大样本半径阈值T，它决定了每个CF里所有样本形成的超球体的半径阈值。一般来说threshold越小，则CF Tree的建立阶段的规模会越大，即BIRCH算法第一阶段所花的时间和内存会越多。但是选择多大以达到聚类效果则需要通过调参决定。默认值是0.5.如果样本的方差较大，则一般需要增大这个默认值。

分类导航

用scikit-learn学习BIRCH聚类

1. scikit-learn之BIRCH类

2. BIRCH类参数

网友评论

更多精彩分享