因子分析在STATA中实现和案例 联系客服

发布时间 : 星期日 文章因子分析在STATA中实现和案例更新完毕开始阅读65af6611a8114431b90dd8aa

第13章 因子分析

因子分析始于1904年Chars Spearman对学生成绩的分析,在经济领域有着极为广泛的用途。在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。这些共同因素称为公因子,特殊因素称为特殊因子。因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。

因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再现它们之间的内在联系。二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。

p个变量X的因子模型表达式为:

X=f?'?e

f称为公因子,?称为因子载荷。X的相关系数矩阵分解为:

?????'??

对于未旋转的因子,??1。?称为特殊度,即每个变量中不属于共性的部分。

13.1 因子估计

Stata可以通过变量进行因子分析,也可以通过矩阵进行。命令为factor或factormat。

webuse bg2,clear describe

factor bg2cost1-bg2cost6

factor bg2cost1-bg2cost6, factors(2)

* pf 主因子方法,用复相关系数的平方作为因子载荷的估计量(默认选项) factor bg2cost1-bg2cost6, factors(2) pcf * pcf 主成分因子,假定共同度=1

factor bg2cost1-bg2cost6, factors(2) ipf * ipf 迭代主因子,重复估计共同度

factor bg2cost1-bg2cost6, factors(2) ml

* ml 极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法

13.2 预测

Stata可以通过predict预测变量得分、拟合值和残差等。

webuse bg2,clear

factor bg2cost1-bg2cost6 predict f1 f2

* factor1 factor2因子分得分

predict stdp residuals * 预测标准差和残差

13.3 Estat

Eatat给出了几个非常有用的工具,包括KMO、SMC等指标。

webuse bg2,clear

factor bg2cost1-bg2cost6 estat anti estat kmo estat residuals estat smc estat summarize

13.4 因子旋转与作图

因子分析的旋转方法以及碎石图、得分图、因子载荷图与主成分分析的方法相同,请参见”主成分分析”一章。

webuse bg2,clear

factor bg2cost1-bg2cost6 screeplot /*碎石图*/ scoreplot /*得分图*/ loadingplot /*因子载荷图*/ rotate /*旋转*/

例:利用2009年的数据对中国社会发展状况进行综合考察,原始数据如下表:

省份

人均GDP(元) x1 63029 55473 23239 20398 32214 31259 23514 21727 73124 39622 42214 14485 30123 14781

新增固定资产(亿元) x2 2385.8 1676.8 4734.2 1772.6 3309.3 5056.7 3279.9 2405.4 2523.2 7645.9 3434.8 2849.5 1768.3 2962.5

城镇居民人均年可支配收入(元) x3 24724.89 19422.53 13441.09 13119.05 14432.55 14392.69 12829.45 11581.28 26674.9 18679.52 22726.66 12990.35 17961.45 12866.44

农村居民

家庭人均高等学校卫生机构纯收入数(所) 数(个) (元) x4 x5 x6 10661.92 85 6497 7910.78 55 2784 4795.46 105 15632 4097.24 69 9431 4656.18 39 7162 5576.48 104 14627 4932.74 55 9659 4855.59 78 7928 11440.26 66 2822 7356.47 146 13357 9257.93 98 15290 4202.49 104 7837 6196.07 81 4478 4697.19 82 8229

area

北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西

山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 33083 19593 19860 17521 37589 14966 17175 18025 15378 8824 12587 13861 18246 12110 17389 17892 19893 6852.5 6414 3053.4 2478.2 5529.2 1419 230.2 1381.9 2918.7 903 1551 137.4 2262.8 575.2 322.8 403.9 1162.9 16305.41 13231.11 13152.86 13821.16 19732.86 14146.04 12607.84 14367.55 12633.38 11758.76 13250.22 12481.51 12857.89 10969.41 11640.43 12931.53 11432.1 5641.43 4454.24 4656.38 4512.46 6399.79 3690.34 4389.97 4126.21 4121.21 2796.93 3102.6 3175.82 3136.46 2723.79 3061.24 3681.42 3502.9 125 94 118 115 125 68 16 47 90 45 59 6 88 39 9 15 37 14973 11683 10305 14455 15819 10427 2220 6265 20738 5848 9249 1326 8812 10534 1582 1629 6739

程序:

clear

*定义变量的标签 label var area 省份

label var x1 \人均GDP(元)\label var x2 \新增固定资产(亿元)\

label var x3 \城镇居民人均年可支配收入(元)\label var x4 \农村居民家庭人均纯收入(元)\label var x5 \高等学校数(所)\label var x6 \卫生机构数(个)\

describe

factor x1-x6

screeplot /* 碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/ *检验

estat kmo /*KMO检验,越高越好*/ estat smc /*SMC检验,值越高越好*/

rotate /*旋转*/

loadingplot , yline(0) xline(0)/*载荷图 */

*预测

predict score fit residual q /*预测变量得分、拟合值和残差以及残差的平方和*/ predict f1 f2

label var f1 收入因子

label var f2 \投资、社会因子\ list area f1 f2 summarize f1 f2 correlate f1 f2

scoreplot,xtitle(\收入因子\投资、社会因子\mlabel(area) yline(0) xline(0) /*得分图*/

分析:

首先通过主因子分析(factor),得到主成分因子:

Factor analysis/correlation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: (unrotated) Number of params = 15

-------------------------------------------------------------------------- Factor | Eigenvalue Difference Proportion Cumulative -------------+------------------------------------------------------------ Factor1 | 3.28193 1.42544 0.6554 0.6554 Factor2 | 1.85648 1.81677 0.3707 1.0261 Factor3 | 0.03971 0.06244 0.0079 1.0341 Factor4 | -0.02272 0.03972 -0.0045 1.0295 Factor5 | -0.06244 0.02293 -0.0125 1.0170 Factor6 | -0.08538 . -0.0170 1.0000 -------------------------------------------------------------------------- LR test: independent vs. saturated: chi2(15) = 211.52 Prob>chi2 = 0.0000

Factor loadings (pattern matrix) and unique variances

----------------------------------------------------------- Variable | Factor1 Factor2 Factor3 | Uniqueness -------------+------------------------------+-------------- x1_s | 0.8609 -0.4463 -0.1125 | 0.0469 x2_s | 0.6274 0.6026 -0.1061 | 0.2320 x3_s | 0.8800 -0.3931 0.0998 | 0.0611 x4_s | 0.9120 -0.3658 0.0365 | 0.0332 x5_s | 0.6508 0.6526 0.0349 | 0.1494 x6_s | 0.3427 0.7616 0.0572 | 0.2993 -----------------------------------------------------------

从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成