离散化变换
2021-9-2
| 2023-8-6
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property
 
 
数值输入变量可能具有高度偏斜或非标准分布。
这可能是由数据中的异常值、多模态分布、高指数分布等引起的。
当数值输入变量具有标准概率分布时,许多机器学习算法更喜欢或表现更好。
离散化变换提供了一种自动方式来更改数字输入变量以具有不同的数据分布,这反过来又可以用作预测模型的输入。
 
变量的值被一起分组到离散的 bin 中,并且每个 bin 都被分配一个唯一的整数,以便保留 bin 之间的序数关系。
bins 的使用通常称为 binning 或k -bins,其中k是指数字变量映射到的组数。
该映射提供了值的高阶排序,可以平滑观察之间的关系。转换可以应用于训练数据集中的每个数字输入变量,然后作为输入提供给机器学习模型以学习预测建模任务。
 
可以使用将值分组到 k 个离散箱中的不同方法,常用技术包括:
  • Uniform:每个 bin 在变量的可能值范围内具有相同的宽度。
  • 分位数:每个 bin 具有相同数量的值,根据百分位数进行拆分。
  • 集群:识别集群,并将示例分配给每个组。
 
离散化变换可通过KBinsDiscretizer 类使用:
  • “strategy”参数控制输入变量的划分方式,如“ uniform ”、“ quantile ”或“ kmeans ”
  • “ n_bins ”参数控制将创建的 bin 数量,并且必须根据策略的选择进行设置,例如“ uniform ”是灵活的,“ quantile ”必须有一个“ n_bins ”小于观察数或合理百分位数,并且“ kmeans ”必须使用可以合理找到的集群数量的值
  • “ encode ”参数控制转换是否将通过设置“ ordinal ”或单热编码“ onehot ”将每个值映射为整数值。序数编码几乎总是首选,尽管 one-hot 编码可能允许模型学习组之间的非序数关系,例如在k均值聚类策略的情况下
notion image
notion image
 
 
 

Pandas离散化和面元划分 ---- 分阶段

 
 
 
 
  • Scikit-Learn
  • 编码分类数据标准化
    目录