因⼦分析在各⾏各业的应⽤⾮常⼴泛,尤其是科研论⽂中因⼦分析更是频频出现。⼩兵也凑个热闹,参考《SPSS统计分析》书中的案例,运⽤SPSS进⾏因⼦分析,作为我博客的第三篇⽂章。
【⼀、概念】
曹海鑫
探讨具有相关关系的变量之间,是否存在不能直接观察到的,但对可观测变量的变化其⽀配作⽤的潜在因素的分析⽅法就是因⼦分析,也叫因素分析。通俗点:因⼦分析是寻潜在的、起⽀配作⽤因⼦的⽅法。 【⼆、简单实例】
现在有 12 个地区的 5 个经济指标调查数据(总⼈⼝、学校校龄、总雇员、专业服务、中等房价),为对这 12 个地区进⾏综合评价,请确定出这 12 个地区的综合评价指标。
【三、解决⽅案】
1、spss因⼦分析
同⼀指标在不同地区是不同的,⽤单⼀某⼀个指标难以对12个地区进⾏准确的评价,单⼀指标智能反映地区的某⼀⽅⾯。所以,有必要确定综合评价指标,便于对⽐。因⼦分析是⼀个不错的选择,5 个指标即为我们分析的对象,我们希望从这5个可观测指标中寻出潜在的因素,⽤这些具有综合信息的因素对各地区进⾏评价。下图是spss因⼦分析的操作界⾯,主要包括5⽅⾯的选项,变量区只能选择数值型变量,分类型变量不能进⼊该模型。另外,spss软件为了消除不同变量间量纲和数量级对结果的影响,在该过程中默认⾃动进⾏标准化处理,因此不需要对这些变量提前进⾏标准化处理。
2、描述统计选项卡
我们希望看到各变量的描述统计信息,要对⽐因⼦提取前后的⽅差变化,所以选定“单变量描述性”和“原始分析结果”;现在是基于相关矩阵提取因⼦,所以,选定相关矩阵的“系数和显著性⽔平“,⽐较重要的还有 KMO 和球形检验,通过KMO值,我们可以初步判断该数据集是否适合采⽤因⼦分析⽅法。⽐较糟糕的是,kmo结果有时并不会出现,这主要与变量个数和样本量⼤⼩有关。
3、抽取选项卡
关贸总协定的宗旨在该选项卡中设置如何提取因⼦,提取因⼦的⽅法有很多,最常⽤的就是主成分法。因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选⽤协⽅差矩
阵。经常⽤到碎⽯图对于判断因⼦的个数很有帮助,⼀般都会选择该项。关于特征值,不想解释太多,这和显著性⽔平⼀样,都是统计学的⼀个基本概念。⼀般spss默认只提取特征值⼤于1的因⼦,但,我还可以通过⾃定义设置需要提取的因⼦个数。另外,收敛次数⽐较重要,可以从⾸次结果反馈的信息进⾏调整。
因⼦分析要求对因⼦给予命名和解释,对因⼦旋转与否取决于因⼦的解释。如果不经旋转因⼦已经很好解释,那么没有必要旋转,否则,应该旋转。这⾥直接旋转,便于解释。⾄于旋转就是坐标变换,使得因⼦系数向1 和 0 靠近,对公因⼦的命名和解释更加容易。旋转⽅法⼀般采⽤”最⼤⽅差法“即可,输出旋转后的因⼦矩阵和载荷图,对于结果的解释⾮常有帮助。
5、保存因⼦得分
组合营销要计算因⼦得分,就必须先写出因⼦的表达式。⽽因⼦是不能直接观察到的,是潜在的。但是可以通过可观测到的变量获得。前⾯说到,因⼦分析模型是原始变量为因⼦的线性组合,现在我们可以根据
回归的⽅法将模型倒过来,⽤原始变量也就是参与分析的变量来表⽰因⼦。从⽽得到因⼦得分。因⼦得分作为变量保存,对于以后深⼊分析很有⽤处。
动力环境监控
【四、结果解释】
1、验证数据是否适合做因⼦分析
钢骨混凝土主要参考kmo结果,⼀般认为⼤于0.5,即可接受。同时还可以参考相关系数,⼀般认为分析变量的相关系数多数⼤于 0.3,则适合做因⼦分析;从 KMO=0.575 检验来看,不是特别适合因⼦分析,基本可以通过。这⾥主要是为了简单介绍因⼦分析,所以,不看重这⼀结果。
2、因⼦⽅差表
提取因⼦后因⼦⽅差的值均很⾼,表明提取的因⼦能很好的描述这 5 个指标。⽅差分解表也表明,默认提取的前两个因⼦能够解释 5 个指标的 93.4%。碎⽯图表明,从第三个因⼦开始,特征值差异很⼩。综合以上,提取前两个因⼦。
3、因⼦矩阵
由旋转因⼦矩阵可以看出,经旋转后,因⼦便于命名和解释。因⼦ 1主要解释的是中等房价、专业服务项⽬、中等校平均校龄,可以命名为社会福利因⼦;⽽因⼦ 2 主要解释的是其余两个指标,总⼈⼝和总雇员。可以命名为⼈⼝因⼦。因⼦分析要求,最后得到的因⼦之间相互独⽴,没有相关性,⽽因⼦转换矩阵显⽰,两个因⼦相关性较低。可见,对因⼦进⾏旋转是完全有必要的。
4、因⼦系数
因⼦得分就是根据这个系数和标准化后的分析变量得到的。其次,在数据视图中可以看到因⼦得分变量。
5、结论
经过因⼦分析,我们的⽬的实现了,到了两个综合评价指标,即⼈⼝因⼦和福利因⼦。从原来的 5 个指标挖掘出 2 个潜在的综合因⼦。可以对12 个地区给出客观评价。
孙志刚事件我们可以根据因⼦1或者因⼦2得分,对这12个地区进⾏从⼤到⼩排序,得分⾼者被认为在这个维度上有较好表现。⼀般上因⼦分析到此就已经结束了,如果想再进⼀步展开分析,⼀般可以采取两种⽅式,第⼀是进⾏因⼦综合得分的计算,⽤⼀个总得分对样本进⾏⼤⼩排序,得分⾼者为佳;第⼆,将得到的若⼲因⼦作为新的变量,进⾏聚类分析,这两种⽅式,均单独有⽂字介绍。见以下链接:;