特征抽取 因子分析FA
2021-9-10
| 2023-8-6
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property

原理

主成分分析和因子分析区别

主成分分析试图在力保数据信息丢失最少的原则下,对多个变量进行最佳综合简化,即对高维变量空间进行降维处理。
假设原来有个变量(或称指标),通常的做法是将原来p个变量(指标)作线性组合,以此新的综合变量(指标)代替原来个指标进行统计分析。如果将选取的第一个线性组合,即第一个综合变量(指标),记为,则自然希望尽可能多地反映原有变量(指标)的信息。
 
如何衡量信息的含量,经典的做法就是采用“方差”来表示。的方差越大,所包含的信息就越多。这样, 的选取方法是,在所有的原来 个变量(指标)的线性组合中,选取方差最大的线性组合作为 ,称为第一主成分。如第一主成分不足于代表原来 个变量(指标)的信息,则考虑选取第二主成分 。为有效反映原信息, 已有的信息不需要再现在中,即要求的协方差为零,即。依此下去,可以构造出第三、第四、…、第个主成分。在主成分之间,不仅不相关,而且方差依次递减。在实际经济工作中,往往选取前面几个较大的主成分。虽然损失一部分信息,但抓住了原来个变量的大部分信息(一般要求超过85%),分析的结果应该是可靠的、可信的。
notion image
主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用
 
 
因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。假想变量是不可观测的潜在变量,称为因子。
假定这个有相关关系的随机变量含有个彼此独立的因子,可表示为
notion image
或用矩阵表示为
称为公共因子,是不可观测的变量,它们的系数称为因子载荷, 称为因子载荷矩阵。 是特殊因子,是不能包含在公共因子的部分。模型中的 称为载荷
需要满足:
,即公共因子和特殊因子不相关
,即公共因子之间不相关且方差为1,即的协方差矩阵为
,即特殊因子不相关,但方差不要求相等
 

区别

  • 因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。主成分分析仅仅是变量变换:用原始变量的线性组合表示新的综合变量,即主成分。因子分析需要构造因子模型:用潜在的假想变量和随机影响变量的线性组合表示原始变量。因子模型估计出来后,需要对所得的公共因子进行解释。
  • 主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
  • 主成分分析中不需要有假设,因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关。
  • 主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。
  • 在因子分析中,因子个数需要分析者指定,例如只有特征值大于1的因子进入分析,而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
 
和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。
在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。

数学原理

 

代码

  • Scikit-Learn
  • 特征抽取 主成分分析PCA特征抽取 线性判别式分析LDA
    目录