伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 课后习题详解

一、习题

1.令kids表示一名妇女生过的孩子数目,educ表示该妇女受教育的年数。生育率对受教育年数的简单回归模型为。其中,u是无法预测到的误差。

(i)u中包含什么样的因素?它们可能与受教育程度相关吗?

(ii)简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。

答:(i)收入、年龄和家庭背景(如兄弟姐妹的数量)都可能包含在误差项中。它们可能与受教育程度相关:收入和受教育程度是呈正相关的;年龄与受教育程度是呈负相关的;兄弟姐妹的数量与受教育程度是负相关的。

(ii)假定(i)中所列举的因素固定不变,即以误差项的形式呈现在回归方程中,如果误差项与解释变量是相关的,即

经典假定被推翻,则简单回归分析不能解释教育对生育率在其他条件不变下的影响。

2.在简单线性回归模型中,假定。令,证明:这个模型总可以改写为另一种形式:斜率与原来相同,但截距和误差有所不同,并且新的误差期望值为零。

证明:在方程右边加上,则

令新的误差项为

因此

新的截距项为,斜率不变为

3.下表包含了8个学生的ACT分数和GPA(平均成绩)。平均成绩以四分制计算,且保留一位小数。

(i)利用OLS估计GPA和ACT的关系;也就是说,求出如下方程中的截距和斜率估计值

评价这个关系的方向。这里的截距有没有一个有用的解释?请说明。如果ACT分数提高5分,预期GPA会提高多少?

(ii)计算每次观测的拟合值和残差,并验证残差和(近似)为零。

(iii)当ACT=20时,GPA的预测值为多少?

(iv)对这8个学生来说,GPA的波动中,有多少能由ACT解释?试说明。

答:(i)变量的均值为:

根据OLS估计量的公式可得:

所以

因此

此处截距没有一个很好的解释,因为对样本而言,ACT并不接近0。如果ACT分数提高5分,预期GPA会提高0.1022×5=0.511。

(ii)每次观测的拟合值和残差表如表2-3所示:

表2-3

根据表可知,残差和为-0.002,忽略固有的舍入误差,残差和近似为零。

(iii)当ACT=20,则

(iv)残差平方和为:

则判定系数为:

GPA的变异中,有57.7%能由ACT解释。

4.数据集BWGHT.RAW包含了美国妇女生育方面的数据。我们关心的两个变量是因变量[婴儿出生体重的盎司数(bwght)]和解释变量[母亲在怀孕期间平均每天抽烟的根数(cigs)]。下面这个简单回归是用n=1388个出生数据进行估计的:

(i)当cigs=0时,预计婴儿的出生体重为多少?当cigs=20(每天一包)时呢?评价其差别。

(ii)这个简单回归能够得到婴儿出生体重和母亲抽烟习惯之间的因果关系吗?请解释。

(iii)要预测出生体重125盎司,cigs应该为多少?

(iv)样本中在怀孕期间不抽烟的妇女比例约为0.85。这有助于解释第(iii)部分中的结论吗?

答:(i)当cigs=0时,预计婴儿的出生体重为119.77盎司;当cigs=20时,预计婴儿的出生体重为109.49盎司,比前者下降8.6%。

(ii)不能。因为还有其他因素影响婴儿的出生体重,如母亲的整体健康状况和产前护理的质量。这些因素可能与怀孕期间吸烟量是相关的。另外,咖啡因的摄入也会影响到婴儿的出生体重,这也与吸烟量相关。

(iii)要预测出生体重为125盎司,那么

这是无意义的,它表明在一个解释变量的情况下预测出生体重会发生的后果。尽管有约700名婴儿的出生体重大于119.77盎司,但最大的预测出生体重不能超过119.77盎司。

(iv)1388名女性中有1176位在怀孕期间不吸烟,不吸烟比率达到了84.7%,因为模型仅仅使用吸烟量来解释出生体重,因此仅有一个预测出生体重的结果:即cigs=0时的出生体重。cigs=0时的预测结果必然大致位于样本数据的中间位置,因此可以预测高出生体重。

5.在线性消费函数中,收入的(估计)边际消费倾向(MPC)无非就是斜率,而平均消费倾向(APC)为

利用对100个家庭的年收入和消费观测(均以美元计),便得到如下方程:

(i)解释这个方程中的截距,并评价它的符号和大小。

(ii)当家庭收入为30000美元时,预计消费为多少?

(iii)以inc为X轴,画出估计的MPC和APC图。

答:(i)截距表示当inc=0,cons预计将为-124.84美元。但这与事实不符,反映出消费函数在预测方面(尤其是收入处于较低的水平上时)是薄弱的。从年同比角度而言,-124.84美元与0美元的差距不大。

(ii)将30000美元代入方程:预计消费=-124.84+0.853×30000=25465(美元)。

(iii)MPC和APC如图2-1所示。即使截距是负的,样本中最小的APC是正的。图中从年均收入水平1000美元开始。

图2-1

6.利用基尔和麦克莱恩(KielandMcClain,1995)有关1988年马萨诸塞州安德沃市的房屋出售数据,如下方程给出了房屋价格(price)和距离一个新修垃圾焚化炉的距离(dist)之间的关系:

(i)解释log(dist)的系数。它的符号是你所预期的吗?

(ii)你认为简单回归给出了price对dist在其他条件不变下弹性的无偏估计量吗?(考虑一个城市决定放置焚化炉的地点的决策。)

(iii)还有哪些其他因素影响房屋的售价?这些因素会与距离焚化炉的远近相关吗?

答:(i)符号为正,与预期相符。log(dist)的系数表示距离焚化炉的距离越远,价格就越高,价格的距离弹性是0.312,即距离远1%,价格上升0.312%。

(ii)城市通常决定将焚化炉放置在远离较贵的居民区的地方,这可能是log(dist)与房价正相关的原因。这将使得误差项的均值与解释变量取值相关,违背假定4,导致OLS估计有偏。

(iii)房屋的面积、洗手间的数量、占地面积大小、房龄社区质量(包括学校质量)都会影响房屋的售价。这些与距离焚化炉的远近是有关的。

7.考虑储蓄函数

其中,e是一个随机变量,且有,假设e独立于inc。

(i)证明:若,则满足零条件均值的关键假设(假定SLR.4)。[提示:若e独立于inc,则]

(ii)证明:若

则不满足同方差假定SLR.5。特别地,sav的方差随着inc而增加。[提示:若e和inc独立,则

(iii)讨论支持储蓄方差随着家庭收入递增的证据。

证明:(i)计算inc的条件期望值时,变为一个常数,因此

(ii)u的方差为:

因为sav的方差即为u的方差,所以可以看出sav的方差随着inc的增加而增加。

(iii)低收入家庭支出的灵活性较低,因为低收入家庭必须首先支付衣食住行等必需品。而高收入家庭具有较高的灵活性,部分选择更多的消费,而另一部分家庭选择更多的储蓄。这种较高的灵活性暗示高收入家庭中储蓄的变动幅度更大。

8.在高斯—马尔可夫假定SLR.1至SLR.5之下,考虑标准的简单回归模型

通常的OLS估计量都是各自总体参数的无偏估计量。令表示通过假定截距为零而得到的的估计量。

(i)用x1表示。证明:当总体截距()为零时,的无偏估计量。有没有其他的情况使得也是无偏的?

(ii)求的方差。(提示:方差不依赖于。)

(iii)证明

[提示:对任何数据样本,,除非,否则该式严格不等。]

(iv)当我们要从中做出选择时,评论偏误和方差的替代关系。

答:(i)从过原点回归的估计量公式可知:

代入可得:

分子化简后可写为:

因此

对于所有的i而言,,则:

上式中右边的第一项表示的偏差。当时,是无偏的。

(ii)根据(i)中所表示的,可得方差为:

(iii)

对任何数据样本

除非。因此

(iv)当不为0时,是有偏估计量而无偏,从偏误的角度看优于;当为0时均无偏,但不为零时

因此优于;此外,对于给定的样本而言,当增加,的有偏程度增加,但是当增加时,也同时增加。当较小时,的偏差也很小。因此以及样本大小n(的规模)决定了在均方误差上的优劣。

9.(i)令为yi对xi进行回归的截距和斜率(有n次观测);c1和c2为常数且为c1yi对c2xi进行回归的截距和斜率。证明,从而验证了2.4节中关于度量单位的命题。[提示:为得到,把改变了度量单位的x和y代入方程(2.19)。然后用方程(2.17)求,确定代入的是进行度量单位变换后的x和y以及正确的斜率。]

(ii)现在令得自(c1+yi)对(c2+xi)的回归(对c1和c2不加任何限制)。

证明:

(iii)令为log(yi)对xi回归的OLS估计值,其中我们必须假定对所有i,都有yi>0。对c1>0,令为log(c1yi)对xi回归的截距和斜率。证明:

(iv)现在假定对所有i,都有x>0。令为yi对log(c2xi)回归的截距和斜率。与yi对log(xi)回归的截距和斜率相比如何?

答:(i)因为,当为c1yi对c2xi进行回归时,可以通过方程2.19得到方程的斜率:

根据公式2.17可得截距项为:

(ii)使用与(i)相同的方法,可得。因此

在(c1+yi)对(c2+xi)的回归中,c1和c2被完全排除在斜率公式以外,因此

截距为:

(iii)因为

令c1代替log(c1),yi代替log(yi),且c2=0,然后采用与(ii)相同的方法即可得

(iv)采用与(ii)相同的方法,设c1=0,c2替代log(c2),xi替代log(xi),如果是原截距和斜率,那么此时的截距和斜率为:

10.令分别为OLS截距和斜率估计量,并令为误差(不是残差)的样本均值。

(i)证明:可写成

其中wi=di/SSTx

(ii)利用(i)及,证明:无关。[提示:要求你证明]

(iii)证明可写成

(iv)利用(ii)和(iii)证明:

(v)(iv)中的表达式能简化成方程(2.58)吗?[提示:。]

证明:(i)因为

代入分子部分并打开得

所以

(ii)因为

需证明公式右边等于0。从(i)可知

因为误差项两两互不相关,则

因此

(iii)最小二乘估计的截距公式为:

代入

(iv)因为是不相关的,则有:

(v)能。

根据,则:

11.假设你对估计大学一年级每周花在学习上的小时数(study)对平均成绩(gpa)的影响感兴趣。

(i)在这样的上下文中需要一个什么样的控制实验?这样的实验看起来是否可行?

(ii)考虑一个更加实际的情形,即由学生选择每周在学习上花多少时间,而你只能随机地从总体中抽出gpa和study两个变量(在一年的学习结束后)。将总体模型写作如下形式:

其中,与通常带截距的模型一样,我们可以假设E(u)=0。列举至少两个u中包含的因素。这些因素是否与study成正相关或负相关?

(iii)如果上一问的等式中的因果关系成立,那么在(ii)的方程中,的符号应该是正还是负?

(iv)在(ii)的方程中,该如何解释?

答:(i)控制其他变量,研究每周花在学习上的小时数(study)与平均成绩(gpa)之间的关系。统计每周花在学习上的小时数(study)与平均成绩(gpa)的数值。这样的实验是可行的。

(ii)u中包含的因素有教师的受教育年限,班级学生的规模。这些因素与study无关。

(iii)的符号应是正的,即学生每周花在学习上的小时数越多,平均成绩越好。

(iv)是截距,反应了学生每周花在学习上的小时数是0时,平均成绩是多少。

二、计算机练习

C1.401K.RAW中的数据是帕普克(Papke,1995)所分析数据的一个子集,帕普克是为了研究401(k)养老金计划的参与率和该计划的慷慨程度之间的关系。变量prate是有资格参与该计划的员工中拥有活动账户的百分比,也是我们要解释的变量。慷慨程度指标是计划的匹配率mrate。这个变量给出了员工每向这个账户存1美元,公司为该员工匹配的平均数量。例如,若mrate=0.50,则员工每投入1美元,公司就匹配50美分。

(i)求出该计划的样本中平均参与率和平均匹配率。

(ii)现在估计下面这个简单回归方程报告你的结果以及样本容量和R2

(iii)解释你的方程中的截距。解释mrate的系数。

(iv)当mrate=3.5时,求出prate的预测值。这是一个合理的预测吗?解释这里出现的情况。

(v)prate的波动中,有多少是由mrate解释的?你认为,这是一个足够大的量吗?

答:(i)平均参与率是87.63%,平均匹配率是0.732。

(ii)回归方程为:

(iii)截距表示即使mrate=0,预测的参与率是83.05%。mrate的系数表明匹配率每增加1美元,则有资格参与该计划的员工中拥有活动账户的百分比(prate)增加5.86%。该结果假定prate的变动是可能的。如果prate已经达到98%,那么截距就是无意义的。

(iv)如果mrate=3.5,则

这不是一个合理的预测,因为参与率不可能超过100%。这表明因变量是有界限的,简单回归所预测的自变量的极值是不符合常理的。

(v)prate的变异中,有7.5%是由mrate解释的,说明还有其他因素影响养老金计划参与率。

C2.数据集CEOSAL2.RAW包含了美国公司首席执行官的信息。变量salary是以千美元计的年薪,ceoten是已担任公司CEO的年数。

(i)求出样本中的平均年薪和平均任期。

(ii)有多少位CEO尚处于担任CEO的第一年(就是说,ceoten=0)?最长的CEO任期是多少?

(iii)估计简单回归模型

用通常的形式报告你的结果。多担任一年CEO,预计年薪增长(近似)的百分数是多少?

答:(i)平均年薪为865.864千美元,平均任期为7.95年。

(ii)有5位CEO处于担任CEO的第一年。最长的CEO任期是37年。

(iii)回归方程是:

多担任一年CEO,预计年薪增长的近似百分数是0.97%(或1%)。

C3.利用比德尔和哈默梅什(BiddleandHamermesh,1990)中的SLEEP75.RAW数据,研究在每周用于睡眠的时间和用于有酬工作的时间之间是否存在替代关系。我们可以用它们中的任何一个作为因变量。为具体起见,估计模型

其中,sleep是每周用于晚上睡眠的分钟数,totwrk是这一周中用于工作的分钟数。

(i)用方程的形式,连同观测的次数和R2报告你的结果。该方程中的截距表示什么?

(ii)若totwrk增加2小时,则sleep估计要减少多少?你觉得这是一个很大的效应吗?

答:(i)估计方程为:

截距表示不工作的人每周用于晚上睡眠的时间为3586.4分钟。这意味着每晚睡眠的时间达到8.5小时。

(ii)当∆totwrk=120(因为totwrk是用分钟度量的),则∆sleep=-0.151×120=-18.12(分钟)。这并不是一个很大的效应。如果某人在5个工作日的工作时间均增加一小时,睡眠总减少时间约为45分钟,平摊在每晚只有约5分钟。

C4.利用WAGE2.RAW中的数据估计一个简单回归,以便用智商(IQ)来解释月薪(wage)。

(i)求出样本中的平均工资和平均IQ。IQ的样本标准差是多少?(总体中的IQ已标准化为平均值是100,标准差是15。)

(ii)估计一个简单回归模型,其中IQ提高一个单位导致wage变化相同的数量。利用这个模型计算IQ提高15个单位时,工资的预期变化。IQ能够解释大多数工资波动吗?

(iii)现在再估计一个模型,其中IQ提高一个单位对工资具有相同的百分比影响。如果IQ提高15个单位,预期工资提高的百分比大约是多少?

答:(i)平均工资为957.95美元,平均IQ为101.28。IQ的样本标准差为15.05,与总体标准差非常接近。

(ii)简单回归模型为:

IQ提高15个单位导致工资变化8.3×15=124.5(以1980年的美元计价)。IQ不能够解释大多数工资波动,薪水的波动中,仅有9.6%是由IQ解释的。

(iii)回归模型为:

如果IQ提高15个单位,则

因此预期工资提高的百分比大约是13.2%。

C5.在化工产业的企业总体中,令rd表示年研发支出,sales表示年销售额(都以百万美元计)。

(i)写一个模型(不是估计方程),其中rd和sales之间的弹性为常数。哪一个参数代表弹性?

(ii)再用RDCHEM.RAW中的数据估计模型。用通常的形式写出估计方程。rd关于sales的弹性估计值是多少?用文字解释这个弹性的含义。

答:(i)不变弹性的对数—对数模型为:

参数代表弹性。

(ii)估计方程为:

rd关于sales的弹性估计值是1.076,说明sales每增长1%,rd将会增长1.08%。

C6.利用ATTEND.RAW中的数据研究出勤率(atndrte,用百分比表示)与ACT成绩(最高可能得分为32分)之间的关系。

(i)在样本中找出atndrte的最大值和最小值。

(ii)在总体模型中,解释系数的含义,的符号是明显的吗?请解释。

答:(i)atndrte的最大值为100,最小值为6.25。

(ii)估计方程为:

表明ACT得分每上升1分,出勤率将下降0.7637%。的符号是不明显的,因为就ACT较小的变动范围而言,变动一分的影响很小,并且ACT只解释了出勤率2.45%的变化。