K近邻法(KNN) | 彩潭有鲤的札记

type

status

date

slug

summary

原理

KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。

KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别；而KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。两者区别不大，KNN的分类方法的思想对KNN的回归方法也适用。

由于scikit-learn里只使用了蛮力实现(brute-force)，KD树实现(KDTree)和球树(BallTree)实现，这里只讨论这几种算法的实现原理。其余的实现方法比如BBF树，MVP树等不做讨论。

KNN算法三要素

KNN算法主要要考虑三个重要的要素，对于固定的训练集，只要这三点确定了，算法的预测方式也就决定了。这三个最终的要素是值的选取，距离度量的方式和分类决策规则。

对于分类决策规则，一般都是使用多数表决法。所以重点是关注与值的选择和距离的度量方式。

对于值的选择，没有一个固定的经验，一般根据样本的分布，选择一个较小的值，可以通过交叉验证选择一个合适的值。

选择较小的值，就相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是泛化误差会增大，换句话说，值的减小就意味着整体模型变得复杂，容易发生过拟合；

选择较大的值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且值的增大就意味着整体的模型变得简单。一个极端是等于样本数，则完全没有分类，此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单。

对于距离的度量，有很多的距离度量方式，但是最常用的是欧式距离，即对于两个维向量和，两者的欧式距离定义为：

大多数情况下，欧式距离可以满足需求。

当然也可以用其它的距离度量方式。比如曼哈顿距离：

更加通用点，比如闵可夫斯基距离(Minkowski Distance)：

欧式距离是闵可夫斯基距离距离在时的特例，而曼哈顿距离是时的特例

KNN算法蛮力实现

既然要找到个最近的邻居来做预测，那么只需要计算预测样本和所有训练集中的样本的距离，然后计算出最小的个距离即可，接着多数表决，很容易做出预测。这个方法的确简单直接，在样本量少，样本特征少的时候有效。但是在实际运用中很多时候用不上，因为经常碰到样本的特征数有上千以上，样本量有几十万以上，如果这要去预测少量的测试集样本，算法的时间效率很成问题。因此，这个方法一般称之为蛮力实现。比较适合于少量样本的简单模型的时候用。

蛮力在特征多，样本多的时候很有局限性，那么有没有其他的好办法呢？有！这里介绍两种办法，一个是KD树实现，一个是球树实现。

KNN算法之KD树实现原理

KD树算法没有一开始就尝试对测试样本分类，而是先对训练集建模，建立的模型就是KD树，建好了模型再对测试集做预测。所谓的KD树就是个特征维度的树，这里的和KNN中的的意思不同。KNN中的K代表最近的个样本，KD树中的代表样本特征的维数。为了防止混淆，后面称特征维数为。

KD树算法包括三步，第一步是建树，第二部是搜索最近邻，最后一步是预测

KD树的建立

KD树建树采用的是从个样本的维特征中，分别计算个特征的取值的方差，用方差最大的第维特征来作为根节点。对于这个特征，选择特征的取值的中位数对应的样本作为划分点，对于所有第维特征的取值小于的样本，划入左子树，对于第维特征的取值大于等于的样本，划入右子树，对于左子树和右子树，采用和刚才同样的办法来找方差最大的特征来做更节点，递归的生成KD树。

具体流程如下图：

比如有二维样本6个，，构建kd树的具体步骤为：

找到划分的特征

6个数据点在维度上的数据方差分别为6.97，5.37，所以在轴上方差更大，用第1维特征建树

确定划分点

根据维上的值将数据排序，6个数据的中值为7，所以划分点的数据是(7,2)，这样，该节点的分割超平面就是通过(7,2)并垂直于：划分点维度的直线

确定左子空间和右子空间

分割超平面将整个空间分为两部分：的部分为左子空间，包含3个节点={(2,3),(5,4),(4,7)}；另一部分为右子空间，包含2个节点={(9,6)，(8,1)}

用同样的办法划分左子树的节点{(2,3),(5,4),(4,7)}和右子树的节点{(9,6)，(8,1)}。最终得到KD树

KD树搜索最近邻

生成KD树以后，就可以去预测测试集里面的样本目标点了。对于一个目标点，首先在KD树里面找到包含目标点的叶子节点。以目标点为圆心，以目标点到叶子节点样本实例的距离为半径，得到一个超球体，最近邻的点一定在这个超球体内部。然后返回叶子节点的父节点，检查另一个子节点包含的超矩形体是否和超球体相交，如果相交就到这个子节点寻找是否有更加近的近邻,有的话就更新最近邻。如果不相交那就简单了，直接返回父节点的父节点，在另一个子树继续搜索最近邻。当回溯到根节点时，算法结束，此时保存的最近邻节点就是最终的最近邻。

从上面的描述可以看出，KD树划分后可以大大减少无效的最近邻搜索，很多样本点由于所在的超矩形体和超球体不相交，根本不需要计算距离。大大节省了计算时间。

用前面建立的KD树，来看对点找最近邻的过程：

先进行二叉查找，先从查找到节点，在进行查找时是由为分割超平面的，由于查找点为值为4.5，因此进入右子空间查找到，形成搜索路径，但与目标查找点的距离为3.202，而与查找点之间的距离为3.041，所以为查询点的最近点；以为圆心，以3.041为半径作圆，如下图所示。可见该圆和超平面交割，所以需要进入左子空间进行查找，也就是将节点加入搜索路径中得；于是接着搜索至叶子节点，距离比要近，所以最近邻点更新为，最近距离更新为1.5；回溯查找至，直到最后回溯到根结点的时候，以为圆心1.5为半径作圆，并不和分割超平面交割，如下图所示。至此，搜索路径回溯完，返回最近邻点，最近距离1.5。

对应的图如下：

KD树预测

有了KD树搜索最近邻的办法，KD树的预测就很简单了，在KD树搜索最近邻的基础上，选择到了第一个最近邻样本，就把它置为已选。在第二轮中，忽略置为已选的样本，重新选择最近邻，这样跑次，就得到了目标的K个最近邻，然后根据多数表决法，如果是KNN分类，预测为K个最近邻里面有最多类别数的类别。如果是KNN回归，用K个最近邻样本输出的平均值作为回归预测值。

KNN算法之球树实现原理

KD树算法虽然提高了KNN搜索的效率，但是在某些时候效率并不高，比如当处理不均匀分布的数据集时,不管是近似方形，还是矩形，甚至正方形，都不是最好的使用形状，因为他们都有角，如下图：

如果黑色的实例点离目标点星点再远一点，那么虚线圆会如红线所示那样扩大，导致与左上方矩形的右下角相交，既然相交了，那么就要检查这个左上方矩形，而实际上，最近的点离星点的距离很近，检查左上方矩形区域已是多余。于此我们看见，KD树把二维平面划分成一个一个矩形，但矩形区域的角却是个难以处理的问题。

为了优化超矩形体导致的搜索效率的问题，牛人们引入了球树，这种结构可以优化上面的这种问题。

球树的建立

球树，顾名思义，就是每个分割块都是超球体，而不是KD树里面的超矩形体。

具体的建树流程：

先构建一个超球体，这个超球体是可以包含所有样本的最小球体

从球中选择一个离球的中心最远的点，然后选择第二个点离第一个点最远，将球中所有的点分配到离这两个聚类中心最近的一个上，然后计算每个聚类的中心，以及聚类能够包含它所有数据点所需的最小半径。这样我们得到了两个子超球体，和KD树里面的左右子树对应

对于这两个子超球体，递归执行步骤2). 最终得到了一个球树

KD树和球树类似，主要区别在于球树得到的是节点样本组成的最小超球体，而KD得到的是节点样本组成的超矩形体，这个超球体要与对应的KD树的超矩形体小，这样做最近邻搜索的时候，可以避免一些无谓的搜索。

球树搜索最近邻

使用球树找出给定目标点的最近邻方法是首先自上而下贯穿整棵树找出包含目标点所在的叶子，并在这个球里找出与目标点最邻近的点，这将确定出目标点距离它的最近邻点的一个上限值，然后跟KD树查找一样，检查兄弟结点，如果目标点到兄弟结点中心的距离超过兄弟结点的半径与当前的上限值之和，那么兄弟结点里不可能存在一个更近的点；否则的话，必须进一步检查位于兄弟结点以下的子树。

检查完兄弟节点后，向父节点回溯，继续搜索最小邻近值。当回溯到根节点时，此时的最小邻近值就是最终的搜索结果。

从上面的描述可以看出，KD树在搜索路径优化时使用的是两点之间的距离来判断，而球树使用的是两边之和大于第三边来判断，相对来说球树的判断更加复杂，但是却避免了更多的搜索，这是一个权衡。

KNN算法的扩展

限定半径最近邻算法

有时候会遇到这样的问题，即样本中某系类别的样本非常的少，甚至少于K，这导致稀有类别样本在找K个最近邻的时候，会把距离其实较远的其他样本考虑进来，而导致预测不准确。为了解决这个问题，限定最近邻的一个最大距离，也就是说，只在一个距离范围内搜索所有的最近邻，这避免了上述问题。这个距离一般称为限定半径。

最近质心算法

这个算法比KNN还简单。它首先把样本按输出类别归类。对于第L类的个样本。它会对这个样本的维特征中每一维特征求平均值，最终该类别所有维度的个平均值形成所谓的质心点。对于样本中的所有出现的类别，每个类别会最终得到一个质心点。当做预测时，仅仅需要比较预测样本和这些质心的距离，最小的距离对于的质心类别即为预测的类别。这个算法通常用在文本分类处理上。

KNN算法小结

KNN算法是很基本的机器学习算法了，它非常容易学习，在维度很高的时候也有很好的分类效率，因此运用也很广泛

KNN的主要优点有：

理论成熟，思想简单，既可以用来做分类也可以用来做回归

可用于非线性分类

训练时间复杂度比支持向量机之类的算法低，仅为

和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感

由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合

该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分

KNN的主要缺点有：

计算量大，尤其是特征数非常多的时候

样本不平衡的时候，对稀有类别的预测准确率低

KD树，球树之类的模型建立需要大量的内存

使用懒散学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢

相比决策树模型，KNN模型可解释性不强

代码

scikit-learn实现

在scikit-learn 中，与近邻法这一大类相关的类库都在sklearn.neighbors包之中。KNN分类树的类是KNeighborsClassifier，KNN回归树的类是KNeighborsRegressor。除此之外，还有KNN的扩展，即限定半径最近邻分类树的类RadiusNeighborsClassifier和限定半径最近邻回归树的类RadiusNeighborsRegressor，以及最近质心分类算法NearestCentroid。

比较特别是的最近质心分类算法，由于它是直接选择最近质心来分类，所以仅有两个参数，距离度量和特征选择距离阈值。

另外几个在sklearn.neighbors包中但不是做分类回归预测的类也值得关注。kneighbors_graph类返回用KNN时和每个样本最近的K个训练集样本的位置。radius_neighbors_graph返回用限定半径最近邻法时和每个样本在限定半径内的训练集样本的位置。NearestNeighbors是个大杂烩，它即可以返回用KNN时和每个样本最近的K个训练集样本的位置，也可以返回用限定半径最近邻法时和每个样本最近的训练集样本的位置，常常用在聚类模型中。

参数

KNeighborsClassifier KNeighborsRegressor RadiusNeighborsClassifier RadiusNeighborsRegressor

K值n_neighbors

K值的选择与样本分布有关，一般选择一个较小的K值，可以通过交叉验证来选择一个比较优的K值，默认值是5。如果数据是三维或者三维以下的，可以通过可视化观察来调参。

不适用于限定半径最近邻法RadiusNeighborsClassifier RadiusNeighborsRegressor

限定半径最近邻法中的半径radius

不适用于KNeighborsClassifier KNeighborsRegressor

半径的选择与样本分布有关，可以通过交叉验证来选择一个较小的半径，尽量保证每类训练样本其他类别样本的距离较远，默认值是1.0。如果数据是三维或者三维以下的，可以通过可视化观察来调参

近邻权重weights

主要用于标识每个样本的近邻样本的权重，如果是KNN，就是K个近邻样本的权重，如果是限定半径最近邻，就是在距离在半径以内的近邻样本的权重。可以选择"uniform","distance" 或者自定义权重。选择默认的"uniform"，意味着所有最近邻样本权重都一样，在做预测时一视同仁。如果是"distance"，则权重和距离成反比例，即距离预测目标更近的近邻具有更高的权重，这样在预测类别或者做回归时，更近的近邻所占的影响因子会更加大。当然，也可以自定义权重，即自定义一个函数，输入是距离值，输出是权重值。这样可以自己控制不同的距离所对应的权重。

一般来说，如果样本的分布是比较成簇的，即各类样本都在相对分开的簇中时，用默认的"uniform"就可以了，如果样本的分布比较乱，规律不好寻找，选择"distance"是一个比较好的选择。如果用"distance"发现预测的效果的还是不好，可以考虑自定义距离权重来调优这个参数。

使用的算法algorithm

一共有4种可选输入，‘brute’对应蛮力实现，‘kd_tree’对应KD树实现，‘ball_tree’对应球树实现， ‘auto’则会在三种算法中做权衡，选择一个拟合最好的最优算法。需要注意的是，如果输入样本特征是稀疏的时候，无论选择哪种算法，最后scikit-learn都会去用蛮力实现‘brute’。

如果样本少特征也少，使用默认的 ‘auto’就够了。如果数据量很大或者特征也很多，用"auto"建树时间会很长，效率不高，建议选择KD树实现‘kd_tree’，此时如果发现‘kd_tree’速度比较慢或者已经知道样本分布不是很均匀时，可以尝试用‘ball_tree’。而如果输入样本是稀疏的，无论你选择哪个算法最后实际运行的都是‘brute’。

停止建子树的叶子节点阈值leaf_size

这个值控制了使用KD树或者球树时，停止建子树的叶子节点数量的阈值。这个值越小，则生成的KD树或者球树就越大，层数越深，建树时间越长，反之，则生成的KD树或者球树会小，层数较浅，建树时间较短。默认是30. 这个值一般依赖于样本的数量，随着样本数量的增加，这个值必须要增加，否则不光建树预测的时间长，还容易过拟合。可以通过交叉验证来选择一个适中的值。

如果使用的算法是蛮力实现，则这个参数可以忽略

距离度量metric

K近邻法和限定半径最近邻法类可以使用的距离度量较多，一般来说默认的欧式距离（即p=2的闵可夫斯基距离）就可以满足我们的需求。可以使用的距离度量参数有：

a）欧式距离 “euclidean”:

b）曼哈顿距离 “manhattan”：

c）切比雪夫距离“chebyshev”:

d）闵可夫斯基距离 “minkowski”(默认参数): p=1为曼哈顿距离， p=2为欧式距离

e）带权重闵可夫斯基距离 “wminkowski”: 其中w为特征权重

f）标准化欧式距离 “seuclidean”: 即对于各特征维度做了归一化以后的欧式距离。此时各样本特征维度的均值为0，方差为1

g）马氏距离“mahalanobis”：其中，为样本协方差矩阵的逆矩阵。当样本分布独立时， S为单位矩阵，此时马氏距离等同于欧式距离

距离度量附属参数p

p是使用距离度量参数 metric 附属参数，只用于闵可夫斯基距离和带权重闵可夫斯基距离中p值的选择，p=1为曼哈顿距离， p=2为欧式距离。默认为2

距离度量其他附属参数metric_params

一般都用不上，主要是用于带权重闵可夫斯基距离的权重，以及其他一些比较复杂的距离度量的参数。

并行处理任务数n_jobs

主要用于多核CPU时的并行处理，加快建立KNN树和预测搜索的速度。一般用默认的-1就可以了，即所有的CPU核都参与计算。

不适用于限定半径最近邻法

异常点类别选择outlier_label

不适用于KNN

不适用于限定半径最近邻回归

RadiusNeighborsClassifier ：主要用于预测时，如果目标点半径内没有任何训练集的样本点时，应该标记的类别，不建议选择默认值 none,因为这样遇到异常点会报错。一般设置为训练集里最多样本的类别。

最近邻分类

最近邻回归

最近质心分类