Column Transformer
2021-9-2
| 2023-8-6
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property
 

Column Transformer

当所有输入变量都是相同类型时,应用数据转换(如缩放或编码分类变量)很简单。当有一个具有混合类型的数据集并且您希望有选择地将数据转换应用于某些(但不是全部)输入特征时,这可能具有挑战性。
scikit-learn 提供了ColumnTransformer,它允许您有选择地将数据转换应用于数据集中的不同列。
 
要使用 ColumnTransformer,必须指定一个转换器列表。
每个转换器都是一个三元素元组,它定义了转换器的名称、要应用的转换以及要应用它的列索引,例如:
  • (名称、对象、列)
例如,下面的 ColumnTransformer 将 OneHotEncoder 应用于第0列和第1列。
下面的示例应用一个 SimpleImputer,对数值列 0 和 1 进行中值插补,并将最频繁插补到分类列 2 和 3 的 SimpleImputer。
 
默认情况下,从数据集中删除任何未在“转换器”列表中指定的列;这可以通过设置“remainder”参数来改变。
设置remainder='passthrough'将意味着所有未在“转换器”列表中指定的列将不经转换直接通过,而不是被丢弃。
例如,如果第 0 列和第 1 列是数字列,第 2 列和第 3 列是分类数据,我们只想转换分类数据并通过数字列不变,可以定义 ColumnTransformer 如下:
 
ColumnTransformer也可以在 Pipeline 中使用,以在将模型拟合到转换后的数据之前有选择地准备数据集的列。
 
 
 
 
 

利用函数或映射进行数据转换

 
 

重命名轴索引

 
 

排列和随机采样

  • Scikit-Learn
  • 标准化多项式特征变换
    目录