数据准备
2021-9-2
| 2023-8-6
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property
 

数据清洗


 
不平衡数据:
 

数据转换


 

其它


 
 
 

降维


 
 
流形学习:
 
 
 
以下算法可能对数值输入变量的规模和分布以及不相关和冗余变量的存在很敏感:
  • 线性回归(和扩展)
  • 逻辑回归
  • 线性判别分析
  • 高斯朴素贝叶斯
  • 神经网络
  • 支持向量机
  • k-最近邻
 
以下算法可能对数值输入变量的规模和分布不敏感,并且对不相关和冗余变量相当不敏感:
  • 决策树
  • AdaBoost
  • 袋装决策树
  • 随机森林
  • 梯度提升
 
 
降维的必要性:
  1. 多重共线性–预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。
  1. 高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。
  1. 过多的变量会妨碍查找规律的建立。
  1. 仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。
  1. 维度灾难 指的是维度很高的情况下,模型更有可能通过检验,但模型的预测能力实际上会变得很弱,多元回归就是典型代表。
目标:
  1. 减少预测变量的个数
  1. 确保这些变量是相互独立的
  1. 提供一个框架来解释结果
 
  • Scikit-Learn
  • Scikit-Learn处理缺失数据
    目录