BIRCH聚类 | 彩潭有鲤的札记

type

status

date

slug

summary

原理

BIRCH概述

BIRCH的全称是利用层次方法的平衡迭代规约和聚类（Balanced Iterative Reducing and Clustering Using Hierarchies）。BIRCH只需要单遍扫描数据集就能进行聚类，那它是怎么做到的呢？

BIRCH算法利用了一个树结构来帮助我们快速的聚类，这个数结构类似于平衡B+树，一般将它称之为聚类特征树(Clustering Feature Tree，CF Tree)。这颗树的每一个节点是由若干个聚类特征(Clustering Feature，CF)组成。从下图可以看看聚类特征树是什么样子的：每个节点包括叶子节点都有若干个CF，而内部节点的CF有指向孩子节点的指针，所有的叶子节点用一个双向链表链接起来。

聚类特征CF与聚类特征树CF Tree

在聚类特征树中，一个聚类特征CF是这样定义的：每一个CF是一个三元组，可以用（N，LS，SS）表示。其中N代表了这个CF中拥有的样本点的数量；LS代表了这个CF中拥有的样本点各特征维度的和向量，SS代表了这个CF中拥有的样本点各特征维度的平方和。

如下图，在CF Tree中的某一个节点的某一个CF中，有下面5个样本。则它对应的N=5， LS=, SS =

CF有一个很好的性质，就是满足线性关系，也就是。如果把这个性质放在CF Tree上，也就是说，在CF Tree中，对于每个父节点中的CF节点，它的(N,LS,SS)三元组的值等于这个CF节点所指向的所有子节点的三元组之和。

从上图中可以看出，根节点的CF1的三元组的值，可以从它指向的6个子节点（CF7 - CF12）的值相加得到。这样我们在更新CF Tree的时候，可以很高效。

对于CF Tree，一般有几个重要参数，第一个参数是每个内部节点的最大CF数B，第二个参数是每个叶子节点的最大CF数L，第三个参数是针对叶子节点中某个CF中的样本点来说的，它是叶节点每个CF的最大样本半径阈值T，也就是说，在这个CF中的所有样本点一定要在半径小于T的一个超球体内。对于上图中的CF Tree，限定了B=7， L=5，也就是说内部节点最多有7个CF，而叶子节点最多有5个CF。

聚类特征树CF Tree的生成

先定义好CF Tree的参数：即内部节点的最大CF数B，叶子节点的最大CF数L，叶节点每个CF的最大样本半径阈值T

在最开始的时候，CF Tree是空的，没有任何样本，从训练集读入第一个样本点，将它放入一个新的CF三元组A，这个三元组的N=1，将这个新的CF放入根节点，此时的CF Tree如下图：

现在继续读入第二个样本点，发现这个样本点和第一个样本点A，在半径为T的超球体范围内，也就是说，他们属于一个CF，将第二个点也加入CF A，此时需要更新A的三元组的值。此时A的三元组中N=2。此时的CF Tree如下图：

此时来了第三个节点，结果发现这个节点不能融入刚才前面的节点形成的超球体内，也就是说，需要一个新的CF三元组B，来容纳这个新的值。此时根节点有两个CF三元组A和B，此时的CF Tree如下图：

当来到第四个样本点的时候，发现和B在半径小于T的超球体，这样更新后的CF Tree如下图：

注：这里说的半径不是讲的广义上的球半径，而是超球体里的N个样本点到质心C的平均距离，其基本表达式是：

这里说的超球体之间的距离不是广义上的质心间的距离，而是两个超球体的样本之间(样本数分别是个，个)的两两距离的平均值，其表达式是：

可以判断簇内部的紧密程度，可以判断簇之间的分散程度

什么时候CF Tree的节点需要分裂呢？假设现在的CF Tree 如下图，叶子节点LN1有三个CF， LN2和LN3各有两个CF。叶子节点的最大CF数L=3。此时一个新的样本点来了，我们发现它离LN1节点最近，因此开始判断它是否在sc1,sc2,sc3这3个CF对应的超球体之内，但是很不幸，它不在，因此它需要建立一个新的CF，即sc8来容纳它。问题是我们的L=3，也就是说LN1的CF个数已经达到最大值了，不能再创建新的CF了，怎么办？此时就要将LN1叶子节点一分为二了。

将LN1里所有CF元组中，找到两个最远的CF做这两个新叶子节点的种子CF，然后将LN1节点里所有CF sc1, sc2, sc3，以及新样本点的新元组sc8划分到两个新的叶子节点上。将LN1节点划分后的CF Tree如下图：

如果内部节点的最大CF数B=3，则此时叶子节点一分为二会导致根节点的最大CF数超了，也就是说，根节点现在也要分裂，分裂的方法和叶子节点分裂一样，分裂后的CF Tree如下图：

总结下CF Tree的插入：

从根节点向下寻找和新样本距离最近的叶子节点和叶子节点里最近的CF节点

如果新样本加入后，这个CF节点对应的超球体半径仍然满足小于阈值T，则更新路径上所有的CF三元组，插入结束。否则转入3.

如果当前叶子节点的CF节点个数小于阈值L，则创建一个新的CF节点，放入新样本，将新的CF节点放入这个叶子节点，更新路径上所有的CF三元组，插入结束。否则转入4

将当前叶子节点划分为两个新叶子节点，选择旧叶子节点中所有CF元组里超球体距离最远的两个CF元组，分布作为两个新叶子节点的第一个CF节点。将其他元组和新样本元组按照距离远近原则放入对应的叶子节点。依次向上检查父节点是否也要分裂，如果需要按和叶子节点分裂方式相同

BIRCH算法

其实将所有的训练集样本建立了CF Tree，一个基本的BIRCH算法就完成了，对应的输出就是若干个CF节点，每个节点里的样本点就是一个聚类的簇。也就是说BIRCH算法的主要过程，就是建立CF Tree的过程。

当然，真实的BIRCH算法除了建立CF Tree来聚类，其实还有一些可选的算法步骤的，BIRCH算法的流程：

将所有的样本依次读入，在内存中建立一颗CF Tree

（可选）将第一步建立的CF Tree进行筛选，去除一些异常CF节点，这些节点一般里面的样本点很少。对于一些超球体距离非常近的元组进行合并

（可选）利用其它的一些聚类算法比如K-Means对所有的CF元组进行聚类，得到一颗比较好的CF Tree.这一步的主要目的是消除由于样本读入顺序导致的不合理的树结构，以及一些由于节点CF个数限制导致的树结构分裂

（可选）利用第三步生成的CF Tree的所有CF节点的质心，作为初始质心点，对所有的样本点按距离远近进行聚类。这样进一步减少了由于CF Tree的一些限制导致的聚类不合理的情况

从上面可以看出，BIRCH算法的关键就是步骤1，也就是CF Tree的生成，其他步骤都是为了优化最后的聚类结果

BIRCH算法小结

BIRCH算法可以不用输入类别数K值，这点和K-Means，Mini Batch K-Means不同。如果不输入K值，则最后的CF元组的组数即为最终的K，否则会按照输入的K值对CF元组按距离大小进行合并。

一般来说，BIRCH算法适用于样本量较大的情况，这点和Mini Batch K-Means类似，但是BIRCH适用于类别数比较大的情况，而Mini Batch K-Means一般用于类别数适中或者较少的时候。BIRCH除了聚类还可以额外做一些异常点检测和数据初步按类别规约的预处理。但是如果数据特征的维度非常大，比如大于20，则BIRCH不太适合，此时Mini Batch K-Means的表现较好。由于BIRCH主要计算很多CF三元组，而如果维度很高，像里面的SS的计算量是非常大的。因为它需要计算所有样本所有维度的平方和。同时每个新样本加入CF-Tree，需要计算和树里面各个位置球心心的距离以寻找它的归属，同时可能还要分裂，在高维时这个计算量同样很大。

对于调参，BIRCH要比K-Means，Mini Batch K-Means复杂，因为它需要对CF Tree的几个关键的参数进行调参，这几个参数对CF Tree的最终形式影响很大。

BIRCH算法的主要优点有：

节约内存，所有的样本都在磁盘上，CF Tree仅仅存了CF节点和对应的指针

聚类速度快，只需要一遍扫描训练集就可以建立CF Tree，CF Tree的增删改都很快

可以识别噪音点，还可以对数据集进行初步分类的预处理

BIRCH算法的主要缺点有：

由于CF Tree对每个节点的CF个数有限制，导致聚类的结果可能和真实的类别分布不同

对高维特征的数据聚类效果不好。此时可以选择Mini Batch K-Means

如果数据集的分布簇不是类似于超球体，或者说不是凸的，则聚类效果不好

代码

在scikit-learn中，BIRCH类实现了基于特征树CF Tree的聚类。因此要使用BIRCH来聚类，关键是对CF Tree结构参数的处理。

在CF Tree中，几个关键的参数为内部节点的最大CF数B，叶子节点的最大CF数L，叶节点每个CF的最大样本半径阈值T。这三个参数定了，CF Tree的结构也基本确定了，最后的聚类效果也基本确定。可以说BIRCH的调参就是调试B，L和T。

至于类别数K，此时反而是可选的，不输入K，则BIRCH会对CF Tree里各叶子节点CF中样本的情况自己决定类别数K值，如果输入K值，则BIRCH会CF Tree里各叶子节点CF进行合并，直到类别数为K

threshold：叶节点每个CF的最大样本半径阈值T，它决定了每个CF里所有样本形成的超球体的半径阈值。一般来说threshold越小，则CF Tree的建立阶段的规模会越大，BIRCH算法第一阶段所花的时间和内存会越多。但是选择多大以达到聚类效果则需要通过调参决定。默认值是0.5，如果样本的方差较大，则一般需要增大这个默认值。

branching_factor：CF Tree内部节点的最大CF数B，以及叶子节点的最大CF数L。scikit-learn对这两个参数进行了统一取值。也就是说，branching_factor决定了CF Tree里所有节点的最大CF数。默认是50。如果样本量非常大，需要增大这个默认值。选择多大的branching_factor以达到聚类效果则需要通过和threshold一起调参决定

n_clusters：类别数K，在BIRCH算法是可选的，如果类别数非常多，也没有先验知识，则一般输入None，此时BIRCH算法第4阶段不会运行。但是如果有类别的先验知识，则推荐输入这个可选的类别值。默认是3，即最终聚为3类。

compute_labels：布尔值，表示是否标示类别输出，默认是True。一般使用默认值挺好，这样可以看到聚类效果