应用回归分析 联系客服

发布时间 : 星期六 文章应用回归分析更新完毕开始阅读12547e2a2af90242a895e567

第五章

5.1自变量选择对回归参数的估计有何影响?

答:全模型正确而误用选模型时,我们舍去了m-p个自变量,用剩下的p个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计。选模型正确而误用全模型时,参数估计值是选模型相应参数的有偏估计。 5.2 自变量选择对回归预测有何影响? (一)全模型正确而误用选模型的情况

估计系数有偏,选模型的预测是有偏的,选模型的参数估计有较小的方差,选模型的预测残差有较小的方差,选模型预测的均方误差比全模型预测的方差更小。 (二)选模型正确而误用全模型的情况

全模型的预测值是有偏的,全模型的预测方差的选模型的大,全模型的预测误差将更大。 5.3如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣?

答:应该用自由度调整复决定系数达到最大的准则。当给模型增加自变量时,复决定系数也随之增大,然而复决定系数的增大代价是残差自由度的减小,自由度小意味着估计和预测的可靠性低。应用自由度调整复决定系数达到最大的准则可以克服样本决定系数的这一缺点,把R2给予适当的修正,使得只有加入“有意义”的变量时,经过修正的样本决定系数才会增加,从而提高预测的精度。 5.4 试述前进法的思想方法。

解:主要是变量由少到多,每次增加一个,直至没有可引入的变量为止。

具体做法是:首先将全部m个自变量,分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,记为

Fj?max{F1,F2,?,Fm}11111{F1,F2,?,Fm}111,选其最大者

xj,给定显著性水平α,若

Fj?F?(1,n?2),则首先将引入回

归方程,假设

xj?x1。其次,将

y分别与(x1,x2),(x1,x3),?,(x1,xm)x2,x3,?,xm2建立m-1个二元线性

回归方程,对这m-1个回归方程中

{F2,F3,?,Fm}222的回归系数进行F检验,计算F值,记为

222,选其最大的记为

Fj?max{F2,F3,?,Fm},若

Fj?F?(1,n?3)2,则

接着将于

xj引入回归方程。以上述方法做下去。直至所有未被引入方程的自变量的F值均小

为止。

F?(1,n?p?1)5.5 试述后退法的思想方法。

首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除。

5.6 前进法、后退法各有哪些优缺点?

解:都可以挑选出对因变量有显著性影响的自变量,逐个挑选并排除显著性较低的自变量。 前进法的缺点:不能反映引进新的自变量后的变化情况。

后退法的缺点:开始把全部自变量引入回归方程,计算量很大。一旦自变量被剔除,就不会再被引入回归方程。

5.7 试述逐步回归的思想方法。

基本思想:有进有出。

具体做法:将变量一个个引入,当每引进一个自变量后,对已引入的变量要逐个检验,当原引入的变量由于后面的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中提出一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。 5.8在运用逐步回归法时,?变量,?进应如何赋值?

答:在运用逐步回归法时,要求引入自变量的显著性水平?进小于剔除自变量的显著性水平

?出。在运用逐步回归法引入变量时,我们是在Fj?F?(1,n?p?1)时,将

p进与?出 的赋值原则是什么?如果希望回归方程中多保留一些自

xj引入方程,

所以如果希望回归方程中多保留一些自变量,则引入自变量时的的检验临界值

F?(1,n?p?1)应尽可能地小一些,相应地,?进应尽可能地大一些。

5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元);x2为工业增加值(亿元);x3为建筑业增加值(亿元);x4为人口数(万人);x5为社会消费总额(亿元);x6为受灾面积(万公顷)。据《中国统计年鉴》获得与变量y有较强的相关性,分别用后退法和逐步回归法作自变量选元。 表5.4 年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 农业 x1 1018.4 1258.9 1359.4 1545.6 1761.6 1960.8 2295.5 2541.6 2763.9 3204.3 3831 4228 5017 5288.6 5800 6882.1 9457.2 11993 工业 x2 1607 1769.7 1996.5 2048.4 2162.3 2375.6 2789 3448.7 3967 4585.8 5777.2 6484 6858 8087.1 10284.5 14143.8 19359.6 24718.3 建筑业x3 138.2 143.8 195.5 207.1 220.7 270.6 316.7 417.9 525.7 665.8 810 794 859.4 1015.1 1415 2284.7 3012.6 3819.6 人口 x4 96259 97542 98705 100072 101654 103008 104357 105851 107507 109300 111026 112704 114333 115823 117171 118517 119850 121121 最终消费x5 2239.1 2619.4 2976.1 3309.1 3637.9 4020.5 4694.5 5773 6542 7451.2 9360.1 10556.5 11365.2 13145.9 15952.1 20182.1 26796 33635 受灾面积x6 50760 39370 44530 39790 33130 34710 31890 44370 47140 42090 50870 46990 38470 55470 51330 48830 55040 45821 财政收入y 1132.3 1146.4 1159.9 1175.8 1212.3 1367 1642.9 2004.8 2122 2199.4 2357.2 2664.9 2937.1 3149.5 3483.4 4349 5218.1 6242.2 1996 1997 1998 13844.2 14211.2 14599.6 29082.6 32412.1 33429.8 4530.5 4810.6 5262 122389 123626 124810 40003.9 43579.4 46405.9 46989 53429 50145 7408 8651.1 9876

5.10表5.5的数据是1968-1983年期间美国与电话线制造有关的数据,各个变量的含义如下: x1——年份;

x2——国民生产总值(10亿美元); x3——新房动工数(单位:1000); x4——失业率(%);

x5——滞后6个月的最惠利率; x6——用户用线增量(%);

y ——年电话线销量(百万尺双线)。 (1)建立y对x2~ x6的线性回归方程; (2)用后退法选择自变量;

(3)用逐步回归法选择自变量;

(4)根据以上计算结果分析后退法与逐步回归法的差异。

表5.5 x1 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 x2 1051.8 1078.8 1075.3 1107.5 1171.1 1235.0 1217.8 1202.3 1271.0 1332.7 1399.2 1431.6 1480.7 1510.3 1492.2 1535.4 x3 1503.6 1486.7 1434.8 2035.6 2360.8 2043.9 1331.9 1160.0 1535.0 1961.8 2009.3 1721.9 1290.8 1100.0 1039.0 1200.0 x4 3.6 3.5 5.0 6.0 5.6 4.9 5.6 8.5 7.7 7.0 6.0 6.0 7.2 7.6 9.2 8.8 x5 5.8 6.7 8.4 6.2 5.4 5.9 9.4 9.4 7.2 6.6 7.6 10.6 14.9 16.6 17.5 16.0 x6 5.9 4.5 4.2 4.2 4.9 5.0 4.1 3.4 4.2 4.5 3.9 4.4 3.9 3.1 .6 1.5 y 5873 7852 8189 7494 8534 8688 7270 5020 6035 7425 9400 9350 6540 7675 7419 7923

(1)解:利用SPSS得回归方程为:

??5922.827?4.864x2?2.374x3?817.901x4?14.593x5?846.867x6y

(2)用后退发生剔除变量

x5,得最优回归方程:

??6007.320?5.068x2?2.308x3?824.261x4?862.699x6y(3)用逐步回归法依次引入

x3,

x5,

x4,得最优回归模型:

x5??1412.807?3.440x3?348.927x5?415.136x4y(4)两种方法得到的最终模型是不同的,后退法首先剔除了了

x5,而逐步回归在第二步引入

,说明两种方法对自变量的重要性的认可是不同的,这与自变量之间的相关性有关联。

相比之下,后退法首先对全模型做了回归,每个自变量都发挥了自己的作用,所得的结果更值得信服。从本例的内容看,

x5是滞后6个月的最惠利率,对因变量的影响似乎不大。