stata笔记 联系客服

发布时间 : 星期五 文章stata笔记更新完毕开始阅读f16cfdabddccda38366baf1e

检验工具变量与解释变量的相关性:即检验工具变量是否为弱工具变量,

命令:estat firststage, all forcenonrobust (all表示显示每个内生变量的统计量,而非仅仅所有内生变量综合的统计量,forcenonrobust表示及时在进行工具变量法时用了稳健标准差,也仍然允许计算estat firststage) 解决弱工具变量的方法包括 A. 寻找更强的工具变量

B. 弱工具变量较多,则舍弃弱工具变量, C. 用有限信息最大似然估计法(Limited information maximum likelihood estimation, LIML)

LIML与2SLS渐进等价,但在弱工具变量的情况下,LIML的小样本性质可能优于2SLS. 命令为:ivregress liml depvar [varlist 1] (varlist2 = instlist)

过度识别(即多余的工具变量的个数)命令为:estat overid 但并不能告诉哪些工具变量无效。

使用工具变量的前提是存在内生解释变量(即解释变量与扰动项相关),这也需要检验。如果所有解释变量都是外生变量则用OLS比用工具变量法更有效,反之应该用工具变量法。豪斯曼检验就是假设所有解释变量都为外生变量。 豪斯曼检验的stata命令: reg y x1 x2

estimates store ols (存储OLS的结果)

ivregress 2sls y x1 (x2= z1 z2) (假设怀疑x2为内生变量) estimates store iv (存储2SLS的结果)

hausman iv ols, constant sigmamore (根据存储的结果进行豪斯曼检验) 但uguo存在异方差,则OLS并不是最有效的,传统额豪斯曼检验不适用于异方差的情形,解决方法是“自助法”;或者使用“杜宾-吴-豪斯曼DWH检验”也可以适用于存在异方差的情况。命令: estat endogenous

在球型扰动项的假定下,2SLS是最有效的,但是如果扰动项存在异方差或者自相关,则广义矩估计(generalized method of moments, GMM)更有效。GMM与2SLS的关系就相当于GLS与OLS之间的关系。

GMM过程:

scc install ivreg2 (安装程序ivreg2)

scc install ranktest (安装另外一个在运行ivreg2时需要用到的辅助程序ranktest) use data

xtset panelvar timevar (设置面板变量和时间变量) ivreg2 y x1(x2=z1 z2), gmm2s

12.短面板:(固定效应和随机效应模型)

N大T小的一般叫做短面板。面板数据的优点为:可以解决遗漏变量的问题,可以提供更多动态行为的信息,样本较多从而估计更准确。但面板数据一般不满足独立同分布的假设。

处理面板数据的一个方法是将面板数据当作横截面数据处理进行OLS回归,称为“混合回归”,但它忽略了同一个聚类存在的相关问题。虽然通常可以假定面板数据不同个体的扰动项的独立性,但是对于同一个体却存在固定效应和随机效应。

固定效应模型通常可以采用组内估计法(FE)和一阶差分法(FD)。当T=2时,FD=FE;当T>2,扰动项独立同分布时,FE优于FD。因此,实践用FE较多,而对动态面板,则用FD

较多。

随机效应的存在使得OLS估计是一致但无效的。可使用广义最小二乘法(FGLS)来进行估计。也可以使用组间估计量(BE)

用豪斯曼检验选择是选用固定效应模型还是随机效应模型,如果统计量大于零界值,则拒绝假设。如果假设成立,RE最有效,但是不适用于异方差的情形。解决方法是自助法和辅助回归。

非平衡面板经常会损失数据,导致破坏样本的随机性。

xtset panelva timevar (设定面板数据的面板个体变量和时间变量) encode country, gen (cntry) (为面板个体编号使得面板个体为整数) 显示面板数据统计特征:

xtdes (显示面板数据结构,是否为平衡面板) xtsum (显示组内、组间和整体的统计指标) xttab varname (显示组内、组间与政体的分布频率)

xtline varname (对每个个体分别显示该变量的时间序列图,如果希望叠放,则选择overlay)

reg y x1 x2 x3, vce (cluster id) (混合回归,VCE是以id为cluster的聚类稳健标准差,因为同一地区不同时间扰动项之间一般存在自相关。) VCE是考虑到了同一聚类之间的同方差现象。

xtreg Y X1 X2 X3, fe vce (cluster id) (使用固定效应模型回归) 得到的回归中rho表示来自个体效应ui的比例。

Xtreg YX1 X2 X3, fe 中的F检验通过,则可以使用混合回归模型。若拒绝假设(p小),则FE更优,每个个体都有自己的固定效应。但此时的由于没有使用稳健回归,因此F检验并不有效,还需要进一步用LSDV法观察。

LSDV法的stata命令为:

xi: xtreg y x1 x2 x3 i.id, vce(cluster id) (xi为增添互动项interaction expansion,i.id表示根据确定个体变量id生成的虚拟变量,在这里是state) (P小,则说明个体虚拟变量很显著,因此,不满足无个体效应的假设,则不能用混合回归模型。)

对于固定效应模型,也可以用一阶差分法FD的命令:

xtserial y x1 x2 x3, output (我的stata不能识别xtserial 咋回事?)一般认为FE比FD有效,故较少使用FD。

也可以在固定效应中考虑时间效应,即双向固定效应: tab year gen(year) 定义年度虚拟变量

xtreg YX1 X2 X3 year2-year7, fe vce (cluster id) (明明是stata12,为什么说数据太多不能计算?要把前面的计算保存等清空,那后面怎么对比?)

test year1 year2 year3。。year7 对年度虚拟变量的联合检验为

检验存在时间效应和固定效益后,还可能存在随机效应,对随机效应进行检查: xtreg y x1 x2 x3, re vce (cluster id) (随机效应FGLS) xtreg y x1 x2 x3, mle (随机效应MLE)

检验个体随机效应存在一个LM检验,需要在随机效应估计之后进行:

Xtreg fatal spircons unrate perinc beertax, re vce (cluster, state)

estimates store RE xttest0

如果P很小,则拒绝假设,认为在“随即效应”与“混合回归”之间,应该选择“随即效应”。

如果数据质量不好,可以考虑使用组间估计量,但会损失较多信息量。 reg y x1 x2 x3, be estimates store BE

选用固定效应模型还是随机效应模型运用豪斯曼检验 xtreg y x1 x2 x3, fe estimates store FE xtreg y x1 x2 x3, re estimates store RE

hausman FE RE, constant sigmamore

P小,则强烈拒绝使用随机效应模型,而应采用固定效应模型。 但是如果聚类稳健标准差和普通标准差相差较大,则传统的豪斯曼检验并不适用。这时需要进行辅助回归。

目前在stata中需要手动进行。步骤如下:

quietly xtreg fatal beertax spircons unrate perinck, re scalar theta=e(theata) (从回归中得到THETA)

global yandxforhausman fatal beertax spircons unrate perinck (使用yandxforhausman时,代表了所有使用的变量)

foreach x of varlist $yandxforhausman{ by state: egen mean ‘x’=mean(‘x’) 到底用什么表示? gen md‘x’=‘x’-mean‘x’ gen red‘x’=‘x’-theata*mean‘x’ }

quietly xtreg redfatal redbeertax redspircons redunrate redperinck mdbeertax mdspircons mdunrate mdperinck, vce(cluster state)

test mdbeertax mdspircons mdunrate mdperinck

检验发现P小,则拒绝r=0的假设,应该选用固定效应模型。 (疑问:那中间那个式子呢?)

面板数据在回归之前要通过平稳性检验,其处理步骤简化为:面板数据单位根检验—协整检验—回归。一般为了方便,采用相同单位根检验LLC检验和不同单位根检验Fisher-ADF检验(非面板数据一般采用ADF检验)。两种检验均拒绝存在单位根的元假设,则认为序列平稳。

13.长面板和动态面板(不能像短面板那样假定独立同分布,而应该运用广义最小二乘法FGLS进行估计,解决组内和组间的自相关。)

解释变量包含被解释变量的滞后项,则为动态面板,反之为静态面板。 (1)仅解决组内自相关的FGLS

tab state, gen(state) 考虑个体效应,生成州虚拟变量。 gen t=year-1962 考虑时间趋势,生成时间趋势变量

reg Y X1 X2 X3 State2-state10 t, vce(cluster state) 用LSDV估计双向固定效应模型 estimates store OLS

考虑组内自相关的情形:用命令stpcse

stpcse Y X1 X2 X3 state2-state10 t, corr(ar1) 约束条件为自回归系数都相同的一阶。 考虑各组自回归系数不同的组内自相关情形 stpcse Y X1 X2 X3 state2-state10 t, corr(psar1)

如果仅考虑不同个体扰动项存在异方差而忽略自相关,则可以用

stpcse Y X1 X2 X3 state2-state10 t, hetonly

将以上各估计的系数及标准差列表便于比较:

究竟应该采用OLS还是采用AR1,则需要检验自相关。 (2)同时处理组内自相关和组间同期相关的FGLS的命令 xtgls

xtgls Y X1 X2 X3state2-state10 t , panels(iid/het/cor) corr(ar1/psar1)

iid表示不同个体(组间)的扰动项独立且具有相同的方差,het表示不同个体的扰动项独立但具有不同的方差,cor表示不同个体的扰动项同期相关且具有不同的方差。Corr表示组内,解释同前。如果加上igls则表示用的迭代FGLS,而非两步FGLS.

若执行xtgls或者xtpcse时没有使用个体虚拟变量,则为随机效应模型,若使用了则为固定效应模型。

(3)长面板数据自相关和异方差检验 组间异方差检验,运用似然比检验

Xtgls Y X1 X2 X3, igls panel(het) (允许异方差的迭代式FGLS估计) Estimates store hetro (将异方差条件下的估计结果储存为hetero) Xtgls y x1 x2 x2, igls (同方差条件下的FGLS)

Estimates store homo (将同方差条件下的估计结果储存为homo)

local df = e(N_g)-1 (计算自由度,即约束条件个数,其中e(N_g)为个体个数) lrtest hetero homo, df(‘df’) (制定自由度,进行似然比检验。) 符号到底是怎样的? P=0,则强烈拒绝LR检验的“组间同方差”假设。

另一种检验组间异方差的方法为xttest3,只能在xtreg,fe 或者xtgls之后使用: Ssc install xttest3(安装命令“xttest3”)

Xttest3 (进行组间异方差检验) 这个超级简单~~

组内自相关检验 通过下载命令xtserial来实现这个检验 net install st0039 (安装命令stserial) 为什么下不了?

xtserial y x1 x2 x3, output (进行组内组相关检验,若P小,则强烈决绝不存在一阶组内自相关的假设。)

组间截面相关检验:非官方xttest2。其仅能在xtgls,ivreg2,和xtreg,fe后使用,且能用于场面版

ssc install xttest2 (安装xttest2) xttest2 (组间截面相关检验)

当这一种方法无法检验时,可以采用另一种方法,xtcsd命令,长短面板都能用,用在fe之后?

ssc install xtcsd (安装命令“xtcsd”)

xtcsd, pesaran abs show (pesaran的检验,服从正态分布) xtcsd, friedman abs show (friedman的检验,服从喀方分布) xtcsd,frees abs show (frees的检验)