典型相关分析在STATA中的实现和案例 联系客服

发布时间 : 星期一 文章典型相关分析在STATA中的实现和案例更新完毕开始阅读68ef076930126edb6f1aff00bed5b9f3f80f7213

第14章 典型相关分析

主成分分析和因子分析只涉及一组变量的相关关系,而典型相关分析则是研究两组变量之间的相关关系。为了研究两组变量varlist1?(x1,x2,?,xr)和

varlist2?(y1,y2,?,ys)之间的相互关系,采用类似于主成分分析的方法,将两组变量合成有代表性的综合指标,通过研究这两组综合指标间的相互关系,来代替这两组变量间的相互关系,这些综合指标就称为典型变量,典型变量之间的相关系数就称为典型相关。

在实际问题中,两组变量之间具有相关关系的问题很多,例如几种主要产品如猪肉、牛肉、鸡蛋的价格(作为第一组变量)和相应这些产品的销量(作为第二组变量)具有相关系数;投资性变量(如劳动者人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国民收入、运输业国民收入、建筑业国民收入等)具有相关关系等。

典型相关分析研究变量之间整体的线性关系,它是将每一组变量作为一个整体来进行研究,而不是分析每一组变量内部的各个变量。所研究的两组变量可以是一组变量为自变量,而另一组变量为因变量的情况,两组变量也可以处于同等的地位,但典型相关分析要求两组变量至少是间隔尺度的。

典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的综合变量能代表原始变量大部分的信息,同时,与由另一组变量生成新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对……使得各对典型相关变量互不相关,典型相关变量之间的简单相关系数称为典型相关系数。典型相关分析就是用典型相关系数衡量两组变量之间的相关性。

设两组变量varlist1和varlist2的相关系数矩阵为:

?A??B'?B?? ?C?典型相关系数的平方即是对V?B'A?1BC?1或W?BC?1B'A?1进行特征值分解,而对应的左侧向量即是两组变量的典型变量的线性组合。

设有m个典型相关系数,对于原假设:两组变量没有相关关系(即检验典型相关系数的显著性),Stata包括了四种统计量。

Wilks(1932)?统计量为:???i?j?1?r2?。

mPallai(1955)迹统计量为:V??i?1ri2。

Lawley-Hotelling(Lawley(1938),Hotelling(1951))迹统计量为:

mri2。 U??i?121?rimRoy最大特征根统计量:即ri2。

14.1 典型相关估计

命令为canon。

sysuse auto,clear

canon (length weight headroom trunk) (displ mpg gear_ratio turn) canon (length weight headroom trunk) (displ mpg gear_ratio turn), coefmatrix

/* coefmatrix 输出原始系数矩阵,此为默认选项*/ canon (length weight headroom trunk) (displ mpg gear_ratio turn), stdcoef

/*stdcoef 输出标准化系数矩阵,stdcoef与coefmatrix二者只能设一个*/

14.2 预测

sysuse auto,clear

canon (length weight headroom trunk) (displ mpg gear_ratio turn) predict pu, u

/* u 计算varlist1的线性组合*/ predict pv,v

/* v 计算varlist2的线性组合*/ predict pstdu, stdu

/* stdu 计算varlist1的线性组合的标准差*/ predict pstdv,stdv

/* stdv 计算varlist2的线性组合的标准差*/

14.3 Estat

sysuse auto,clear

canon (length weight headroom trunk) (displ mpg gear_ratio turn) estat correlations

/* varlist1和varlist2的相关系数矩阵*/ estat loadings

/*典型载荷,即各个变量与其对应的典型变量的相关系数*/

例:中国30个省市自治区农村居民收入和支出的典型相关分析。

反映农村居民收入的变量:x1——农村居民家庭人均工资性收入;x2——农村居民家庭人均家庭经营收入;x3——农村居民家庭人均财产性收入;x4——农村居民家庭人均转移性收入。

反映农村居民生活费支出的变量:x5——农村居民家庭人均食品支出;x6——农村居民家庭人均衣着支出;x7——农村居民家庭人均居住支出;x8——农村居民家庭人均家庭设备及服务支出;x9——农村居民家庭人均交通和通讯支出;x10——农村居民家庭人均文教、娱乐用品及服务支出;x11——农村居民家庭人均医疗保健支出;x12——农村居民家庭人均其他商品及服务支出。 area 北京市 x1 6389.31 x2 2058.57 x3 x4 x5 x6 x7 x8 x9 x10 x11 709.44 x12 127.29 1142.8 1071.25 2470.72 577.81 1162.96 402.56 950.53 883.35 天津市 河北省 山西省 内蒙古 辽宁省 吉林省 黑龙江省 上海市 江苏省 浙江省 安徽省 福建省 江西省 山东省 河南省 湖北省 湖南省 广东省 广西 海南省 重庆市 四川省 贵州省 云南省 西藏 陕西省 甘肃省 青海省 宁夏 新疆 4064.95 1979.52 1713.55 806.48 2035.53 810.17 916.76 8108.32 3895.5 4587.44 1737.84 2421.46 1842.36 2263.46 1499.93 1742.33 1990.52 3684.47 1283.39 808.63 1764.64 1620.4 1002.68 617.47 759.72 1243.57 867.98 983.16 1260.04 422.82 3097.14 2416.22 1986.38 3218.01 2931.26 3344.72 3163.7 711.26 2812 3762.93 2114.24 3146.09 2552.59 2962.96 2699.3 2690.83 2196.61 2001.5 2190.62 3235.09 2016.64 2061.7 1512.47 2156.8 1845.04 1475.01 1543.24 1602.74 2032.01 2779.71 463.39 285.3 1568.95 292.52 699.21 696.14 486.75 569.6 601.71 530.69 871.51 153.61 402.87 324.47 151.94 346.73 250.07 138.26 328.74 380.7 301.06 219.32 210.32 320.62 283.37 380.71 351.05 697.11 290.93 532.06 199.44 197.85 205.68 280.49 215 210.36 244.17 259 154.32 123.82 197.15 209.22 96.38 181.97 53.84 251.23 164.72 270.06 318.77 244.59 82.75 64.68 69.85 69.43 107.78 93.27 83.41 179.06 120.56 146.14 58.94 113.01 60.58 79 66.27 99.8 78.67 136.82 50.81 86.67 42.87 53.49 33.75 43.97 70.09 60.7 31.05 61.54 72.2 46.24 118.63 281.09 1192.93 203.74 153.05 244.26 1206.69 276.23 114.9 201.29 183.2 516.79 1483.61 239.96 408.4 1549 298.82 128.8 406.74 399.35 158.91 426.47 387.97 124.8 355.58 130 341.7 594.66 1362.44 254.05 243.57 531.57 1267.68 308.49 395.02 437.57 855.3 849.83 1770.85 3731.27 467.33 1806.08 503.96 879.57 253.47 395.5 2202.58 276.39 2779.1 860.35 250.11 614.23 713.23 747 437.52 470.04 454.79 1659.88 364.05 851.06 650.51 777.51 559.39 804.75 712.61 651.5 629.75 964.53 535.45 391.04 328.97 469.73 427.4 626.12 324.07 598.59 387.83 568.79 582.47 492.77 119.04 231.37 1454.18 180.04 179.03 449.49 66.55 2162.3 263.59 165.53 280.63 294.84 222.86 534.68 390.15 155 301.68 236.01 235.69 1633.12 157.75 163.93 251.07 1551.77 250.29 53 40.82 57.06 202.02 1165.81 209.75 182.4 1711.34 187.07 240.91 452.55 417.27 169.61 290.79 214.38 234.92 290.44 267.13 171.11 286.01 278.67 189.01 483.66 272.87 124.01 261.85 172.73 104.07 261.57 288.49 167.74 238.43 211.83 163.99 256.08 173.26 94.36 159.61 122.1 268.26 1947.52 169.06 339.47 374.35 2388.91 177.67 41.76 53.58 50.9 71.37 63.92 109.83 185.46 86.01 19.49 148.55 65.73 174.58 1594.67 292.68 1537.55 91.19 89.89 294.03 1537.59 160.34 367.74 1627.58 174.59 217.86 1119.64 112.46 218.5 385.6 1483.16 119.63 1153.37 248.68 175.5 118.97 248.25 168.55 140.06 147.21 62.26 331.87 1115.66 155.07 270.63 351.99 95.58 234.69 219.91 110.35 316.75 148.86 123.91 299.29 192.57 97.58 276.31 168.99 293.08 1132.53 134.66 326.8 1220.02 200.26 323.64 1288.47 217.17 121.15 179.23 1146.69 218.61 注:资料来自2009年《中国统计年鉴》

程序:

clear

*定义变量的标签 label var area 省份

label var x1 \农村居民家庭人均工资性收入\label var x2 \农村居民家庭人均家庭经营收入\label var x3 \农村居民家庭人均财产性收入\label var x4 \农村居民家庭人均转移性收入\label var x5 \农村居民家庭人均食品支出\label var x6 \农村居民家庭人均衣着支出\

label var x7 \农村居民家庭人均居住支出\

label var x8 \农村居民家庭人均家庭设备及服务支出\label var x9 \农村居民家庭人均交通和通讯支出\

label var x10 \农村居民家庭人均文教、娱乐用品及服务支出\label var x11 \农村居民家庭人均医疗保健支出\label var x12 \农村居民家庭人均其他商品及服务支出\

describe

canon (x1-x4) (x5-x12)

* coefmatrix 输出原始系数矩阵,此为默认选项 canon (x1-x4) (x5-x12), coefmatrix

*stdcoef 输出标准化系数矩阵,stdcoef与coefmatrix二者只能设一个

estat correlations estat loadings

predict pu, u

/* u 计算varlist1的线性组合*/ predict pv,v

/* v 计算varlist2的线性组合*/ predict pstdu, stdu

/* stdu 计算varlist1的线性组合的标准差*/ predict pstdv,stdv

/* stdv 计算varlist2的线性组合的标准差*/

分析:

通过运行命令canon (x1-x4) (x5-x12), coefmatrix进行典型相关估计,得到如下的运行结果:

. canon (x1-x4) (x5-x12), coefmatrix

Canonical correlation analysis Number of obs = 31

Raw coefficients for the first variable set

| 1 2 3 4 -------------+---------------------------------------- x1 | 0.0004 0.0009 0.0007 0.0001 x2 | 0.0004 -0.0004 0.0008 -0.0012