离散化变换 | 彩潭有鲤的札记

type

status

date

slug

summary

category

icon

password

Property

数值输入变量可能具有高度偏斜或非标准分布。

这可能是由数据中的异常值、多模态分布、高指数分布等引起的。

当数值输入变量具有标准概率分布时，许多机器学习算法更喜欢或表现更好。

离散化变换提供了一种自动方式来更改数字输入变量以具有不同的数据分布，这反过来又可以用作预测模型的输入。

变量的值被一起分组到离散的 bin 中，并且每个 bin 都被分配一个唯一的整数，以便保留 bin 之间的序数关系。

bins 的使用通常称为 binning 或k -bins，其中k是指数字变量映射到的组数。

该映射提供了值的高阶排序，可以平滑观察之间的关系。转换可以应用于训练数据集中的每个数字输入变量，然后作为输入提供给机器学习模型以学习预测建模任务。

可以使用将值分组到 k 个离散箱中的不同方法，常用技术包括：

离散化变换可通过KBinsDiscretizer 类使用：

“ n_bins ”参数控制将创建的 bin 数量，并且必须根据策略的选择进行设置，例如“ uniform ”是灵活的，“ quantile ”必须有一个“ n_bins ”小于观察数或合理百分位数，并且“ kmeans ”必须使用可以合理找到的集群数量的值

“ encode ”参数控制转换是否将通过设置“ ordinal ”或单热编码“ onehot ”将每个值映射为整数值。序数编码几乎总是首选，尽管 one-hot 编码可能允许模型学习组之间的非序数关系，例如在k均值聚类策略的情况下