特征选择 | 彩潭有鲤的札记

type

status

date

slug

summary

特征的来源

在做数据分析的时候，特征的来源一般有两块：一块是业务已经整理好各种特征数据，需要去找出适合问题需要的特征；另一块是从业务特征中去寻找高级数据特征。

当业务已经整理好各种特征数据时，此时特征数可能成百上千，哪些才是需要的呢？

第一步是找到该领域懂业务的专家，让他们给一些建议。假如需要解决一个药品疗效的分类问题，那么先找到领域专家，向他们咨询哪些因素（特征）会对该药品的疗效产生影响，较大影响的和较小影响的都要。这些特征就是我们的特征的第一候选集。

这个特征集合有时候也可能很大，在尝试降维之前，有必要用特征工程的方法去选择出较重要的特征结合，这些方法不会用到领域知识，而仅仅是统计学的方法。

特征选择方法有很多，一般分为三类：

第三类嵌入法，稍微复杂一点，它先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小来选择特征，类似于过滤法，但是它是通过机器学习训练来确定特征的优劣，而不是直接从特征的一些统计学指标来确定特征的优劣。

在拿到已有的特征后，还可以根据需要寻找到更多的高级特征。比如有车的路程特征和时间间隔特征，可以得到车的平均速度这个二级特征。根据车的速度特征，就可以得到车的加速度这个三级特征，根据车的加速度特征，就可以得到车的加加速度这个四级特征.........。也就是说，高级特征可以一直寻找下去。

在Kaggle之类的算法竞赛中，高分团队主要使用的方法除了集成学习算法，剩下的主要就是在高级特征上面做文章。所以寻找高级特征是模型优化的必要步骤之一。当然，在第一次建立模型的时候，可以先不寻找高级特征，得到以后基准模型后，再寻找高级特征进行优化。

寻找高级特征最常用的方法有：

当然，寻找高级特征的方法远不止于此，它需要你根据业务和模型需要而得，而不是随便的两两组合形成高级特征，这样容易导致特征爆炸，反而没有办法得到较好的模型。

工程经验是，聚类的时候高级特征尽量少一点，分类回归的时候高级特征适度的多一点

很多聚类算法无法识别高相关性，会重复计算高相关性特征，并夸大了其影响，比如K均值。

特征选择时特征与特征之间的相关性不需要分析吗？还有怎样检测，处理多重共线性特征呢？

如果是做监督学习,一般是不需要的，非监督需要考虑。

如果是特征太多了，相关性是一个较次要一些的因素。可以通过相关系数之类的方法来检测特征相关性，并去除部分共线性相关特征，但是大多数时候只在聚类的时候有些用处。