stata笔记南京廖华

stata笔记联系客服

发布时间 : 2024/5/17 17:01:51 星期五文章stata笔记更新完毕开始阅读f16cfdabddccda38366baf1e

检验工具变量与解释变量的相关性：即检验工具变量是否为弱工具变量，

命令：estat firststage, all forcenonrobust (all表示显示每个内生变量的统计量，而非仅仅所有内生变量综合的统计量，forcenonrobust表示及时在进行工具变量法时用了稳健标准差，也仍然允许计算estat firststage) 解决弱工具变量的方法包括 A．寻找更强的工具变量

B．弱工具变量较多，则舍弃弱工具变量， C．用有限信息最大似然估计法（Limited information maximum likelihood estimation, LIML）

LIML与2SLS渐进等价，但在弱工具变量的情况下，LIML的小样本性质可能优于2SLS. 命令为：ivregress liml depvar [varlist 1] (varlist2 = instlist)

过度识别（即多余的工具变量的个数）命令为：estat overid 但并不能告诉哪些工具变量无效。

使用工具变量的前提是存在内生解释变量（即解释变量与扰动项相关），这也需要检验。如果所有解释变量都是外生变量则用OLS比用工具变量法更有效，反之应该用工具变量法。豪斯曼检验就是假设所有解释变量都为外生变量。豪斯曼检验的stata命令： reg y x1 x2

estimates store ols (存储OLS的结果)

ivregress 2sls y x1 (x2= z1 z2) （假设怀疑x2为内生变量） estimates store iv （存储2SLS的结果）

hausman iv ols, constant sigmamore （根据存储的结果进行豪斯曼检验）但uguo存在异方差，则OLS并不是最有效的，传统额豪斯曼检验不适用于异方差的情形，解决方法是“自助法”；或者使用“杜宾-吴-豪斯曼DWH检验”也可以适用于存在异方差的情况。命令： estat endogenous

在球型扰动项的假定下，2SLS是最有效的，但是如果扰动项存在异方差或者自相关，则广义矩估计（generalized method of moments, GMM）更有效。GMM与2SLS的关系就相当于GLS与OLS之间的关系。

GMM过程：

scc install ivreg2 (安装程序ivreg2)

scc install ranktest (安装另外一个在运行ivreg2时需要用到的辅助程序ranktest) use data

xtset panelvar timevar (设置面板变量和时间变量) ivreg2 y x1(x2=z1 z2), gmm2s

12.短面板：（固定效应和随机效应模型）

N大T小的一般叫做短面板。面板数据的优点为：可以解决遗漏变量的问题，可以提供更多动态行为的信息，样本较多从而估计更准确。但面板数据一般不满足独立同分布的假设。

处理面板数据的一个方法是将面板数据当作横截面数据处理进行OLS回归，称为“混合回归”，但它忽略了同一个聚类存在的相关问题。虽然通常可以假定面板数据不同个体的扰动项的独立性，但是对于同一个体却存在固定效应和随机效应。

固定效应模型通常可以采用组内估计法（FE）和一阶差分法（FD）。当T=2时，FD=FE;当T>2，扰动项独立同分布时，FE优于FD。因此，实践用FE较多，而对动态面板，则用FD

较多。

随机效应的存在使得OLS估计是一致但无效的。可使用广义最小二乘法（FGLS）来进行估计。也可以使用组间估计量（BE）

用豪斯曼检验选择是选用固定效应模型还是随机效应模型，如果统计量大于零界值，则拒绝假设。如果假设成立，RE最有效，但是不适用于异方差的情形。解决方法是自助法和辅助回归。

非平衡面板经常会损失数据，导致破坏样本的随机性。

xtset panelva timevar (设定面板数据的面板个体变量和时间变量) encode country, gen (cntry) (为面板个体编号使得面板个体为整数) 显示面板数据统计特征:

xtdes (显示面板数据结构，是否为平衡面板) xtsum (显示组内、组间和整体的统计指标) xttab varname (显示组内、组间与政体的分布频率)

xtline varname (对每个个体分别显示该变量的时间序列图，如果希望叠放，则选择overlay)

reg y x1 x2 x3, vce (cluster id) (混合回归，VCE是以id为cluster的聚类稳健标准差，因为同一地区不同时间扰动项之间一般存在自相关。) VCE是考虑到了同一聚类之间的同方差现象。

xtreg Y X1 X2 X3, fe vce (cluster id) (使用固定效应模型回归) 得到的回归中rho表示来自个体效应ui的比例。

Xtreg YX1 X2 X3, fe 中的F检验通过，则可以使用混合回归模型。若拒绝假设(p小)，则FE更优，每个个体都有自己的固定效应。但此时的由于没有使用稳健回归，因此F检验并不有效，还需要进一步用LSDV法观察。

LSDV法的stata命令为：

xi: xtreg y x1 x2 x3 i.id, vce(cluster id) (xi为增添互动项interaction expansion,i.id表示根据确定个体变量id生成的虚拟变量，在这里是state) (P小，则说明个体虚拟变量很显著，因此，不满足无个体效应的假设，则不能用混合回归模型。)

对于固定效应模型，也可以用一阶差分法FD的命令：

xtserial y x1 x2 x3, output （我的stata不能识别xtserial 咋回事?）一般认为FE比FD有效，故较少使用FD。

也可以在固定效应中考虑时间效应，即双向固定效应： tab year gen(year) 定义年度虚拟变量

xtreg YX1 X2 X3 year2-year7, fe vce (cluster id) （明明是stata12，为什么说数据太多不能计算？要把前面的计算保存等清空，那后面怎么对比？）

test year1 year2 year3。。year7 对年度虚拟变量的联合检验为

检验存在时间效应和固定效益后，还可能存在随机效应，对随机效应进行检查： xtreg y x1 x2 x3, re vce (cluster id) (随机效应FGLS) xtreg y x1 x2 x3, mle (随机效应MLE)

检验个体随机效应存在一个LM检验，需要在随机效应估计之后进行：

Xtreg fatal spircons unrate perinc beertax, re vce (cluster, state)

estimates store RE xttest0

如果P很小，则拒绝假设，认为在“随即效应”与“混合回归”之间，应该选择“随即效应”。

如果数据质量不好，可以考虑使用组间估计量，但会损失较多信息量。 reg y x1 x2 x3, be estimates store BE

选用固定效应模型还是随机效应模型运用豪斯曼检验 xtreg y x1 x2 x3, fe estimates store FE xtreg y x1 x2 x3, re estimates store RE

hausman FE RE, constant sigmamore

P小，则强烈拒绝使用随机效应模型，而应采用固定效应模型。但是如果聚类稳健标准差和普通标准差相差较大，则传统的豪斯曼检验并不适用。这时需要进行辅助回归。

目前在stata中需要手动进行。步骤如下：

quietly xtreg fatal beertax spircons unrate perinck, re scalar theta=e(theata) (从回归中得到THETA)

global yandxforhausman fatal beertax spircons unrate perinck (使用yandxforhausman时，代表了所有使用的变量)

foreach x of varlist $yandxforhausman{ by state: egen mean ‘x’=mean(‘x’) 到底用什么表示？ gen md‘x’=‘x’-mean‘x’ gen red‘x’=‘x’-theata*mean‘x’ }

quietly xtreg redfatal redbeertax redspircons redunrate redperinck mdbeertax mdspircons mdunrate mdperinck, vce(cluster state)

test mdbeertax mdspircons mdunrate mdperinck

检验发现P小，则拒绝r=0的假设，应该选用固定效应模型。 (疑问：那中间那个式子呢？)

面板数据在回归之前要通过平稳性检验，其处理步骤简化为：面板数据单位根检验—协整检验—回归。一般为了方便，采用相同单位根检验LLC检验和不同单位根检验Fisher-ADF检验（非面板数据一般采用ADF检验）。两种检验均拒绝存在单位根的元假设，则认为序列平稳。

13.长面板和动态面板（不能像短面板那样假定独立同分布，而应该运用广义最小二乘法FGLS进行估计，解决组内和组间的自相关。）

解释变量包含被解释变量的滞后项，则为动态面板，反之为静态面板。 (1)仅解决组内自相关的FGLS

tab state, gen(state) 考虑个体效应，生成州虚拟变量。 gen t=year-1962 考虑时间趋势，生成时间趋势变量

reg Y X1 X2 X3 State2-state10 t, vce(cluster state) 用LSDV估计双向固定效应模型 estimates store OLS

考虑组内自相关的情形：用命令stpcse

stpcse Y X1 X2 X3 state2-state10 t, corr(ar1) 约束条件为自回归系数都相同的一阶。考虑各组自回归系数不同的组内自相关情形 stpcse Y X1 X2 X3 state2-state10 t, corr(psar1)

如果仅考虑不同个体扰动项存在异方差而忽略自相关，则可以用

stpcse Y X1 X2 X3 state2-state10 t, hetonly

将以上各估计的系数及标准差列表便于比较：

究竟应该采用OLS还是采用AR1，则需要检验自相关。（2）同时处理组内自相关和组间同期相关的FGLS的命令 xtgls

xtgls Y X1 X2 X3state2-state10 t , panels(iid/het/cor) corr(ar1/psar1)

iid表示不同个体(组间)的扰动项独立且具有相同的方差，het表示不同个体的扰动项独立但具有不同的方差，cor表示不同个体的扰动项同期相关且具有不同的方差。Corr表示组内，解释同前。如果加上igls则表示用的迭代FGLS,而非两步FGLS.

若执行xtgls或者xtpcse时没有使用个体虚拟变量，则为随机效应模型，若使用了则为固定效应模型。

（3）长面板数据自相关和异方差检验组间异方差检验，运用似然比检验

Xtgls Y X1 X2 X3, igls panel(het) (允许异方差的迭代式FGLS估计) Estimates store hetro （将异方差条件下的估计结果储存为hetero） Xtgls y x1 x2 x2, igls (同方差条件下的FGLS)

Estimates store homo （将同方差条件下的估计结果储存为homo）

local df = e（N_g）-1 （计算自由度，即约束条件个数，其中e（N_g）为个体个数） lrtest hetero homo, df(‘df’) (制定自由度，进行似然比检验。) 符号到底是怎样的？ P=0,则强烈拒绝LR检验的“组间同方差”假设。

另一种检验组间异方差的方法为xttest3，只能在xtreg,fe 或者xtgls之后使用： Ssc install xttest3(安装命令“xttest3”)

Xttest3 (进行组间异方差检验) 这个超级简单~~

组内自相关检验通过下载命令xtserial来实现这个检验 net install st0039 (安装命令stserial) 为什么下不了？

xtserial y x1 x2 x3, output (进行组内组相关检验，若P小，则强烈决绝不存在一阶组内自相关的假设。)

组间截面相关检验：非官方xttest2。其仅能在xtgls，ivreg2，和xtreg，fe后使用，且能用于场面版

ssc install xttest2 （安装xttest2） xttest2 （组间截面相关检验）

当这一种方法无法检验时，可以采用另一种方法，xtcsd命令，长短面板都能用，用在fe之后？

ssc install xtcsd (安装命令“xtcsd”)

xtcsd, pesaran abs show (pesaran的检验，服从正态分布) xtcsd, friedman abs show (friedman的检验，服从喀方分布) xtcsd，frees abs show （frees的检验）

Word文档下载：stata笔记.doc

搜索更多:stata笔记