高级计量经济学 12:最大似然估计(中)
此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。
我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括代码和正文)做了修改。
仅供学习参考,请勿转载,侵删!
目录
-
6 最大似然估计法
-
6.5 最大似然法的大样本性质
- 6.5.1 估计量的一致性
- 6.5.2 渐近有效和渐近正态
-
6.6 最大似然估计量的渐近协方差矩阵
- 6.6.1 期望值法
- 6.6.2 观测信息矩阵法
- 6.6.3 梯度向量外积或BHHH法
-
6.5 最大似然法的大样本性质
6.5 最大似然法的大样本性质
MLE之所以被广泛应用,是因为MLE估计量具有良好的样本性质。在正则条件(包括参数空间 为有界闭集、样本为独立同分布等,正则条件一般都可以满足,不必)满足下,我们在半节介绍MLE估计量的性质。总的来说,最大似然法的大样本性质有以下三点:
- 估计量的一致性: ,这一点可以在MLE估计量取极限 得到
- 渐进有效性:渐进协方差矩阵 在大样本下达到了克莱默-劳下限
- 渐进正态:即
6.5.1 估计量的一致性
证明:一致性
为了使用大数定律,将似然函数 ,除以 ,并定义:
注意,这里的 既是 的函数,也是 的函数。显然:
对于任何 , 是 的(因为抽样是 i.i.d. 的),所以根据大数定律,样本均值收敛到总体均值:
其中, 仅依赖于 ,因为期望算子 已经把样本数据 积分掉(注意 作为条件期望的“条件”,它并非求期望时的被积变量)。下面我们要证明 在 处存在唯一的最大值(这一步证明是为了说明“使得似然函数最大的 就是真实的 ”)。
为此,构造随机变量 ,注意到对数函数 是凹函数,使用詹森不等式(Jensen's inequality)可知(Jensen's不等式有点像Cauchy不等式,在微观经济学研究风险偏好的部分会使用到的,可以自行百度)对于任意 ,有:
把上面的不等式右边的期望写成:
其中, 是因为概率密度函数的积分为1。于是上面的不等式可以写成:
也就是说:
也就是说,对于任意 ,一定有:
于是我们有:
- 在 处取得最大值( 本身就是通过最大化 来的)
- 在 处取得最大值(我们刚刚证明了)
- (使用大数定律)
也就是说, 随着 变大逐渐变成 ,于是在 时 的最大值就与 的最大值重合了,即
证毕。
6.5.2 渐近有效和渐近正态
证明:渐近正态。只要证明了渐近正态,那么渐近有效也就被证明了。
根据MLE的一阶条件,得分函数为 向量,即:
利用微分中值定理(Mean Value Theorem),将 在 处进行 Taylor 展开,有:
这里忽略了高阶无穷小,其中:
- 在 和 之间,即
- 是 处的海塞矩阵:
将 Taylor 展开的等式移项,两边同乘 ,就有:
根据MLE的一致性 ,而 夹在在 和 之间,于是 ,那么:
我们在前面已经提到,可以把得分函数分解为各个观测值的贡献,即:
同样地,海塞矩阵也可以这么做分解:
那么上面的收敛可以写成:
- 由于样本是 的, 肯定也是 的,那末我们就可以用大数定律:
- 由于样本是 的,所以 肯定也是 的,由于 (得分函数的期望为向量),所以可以使用中心极限定理:
于是,随着 ,我们就发现:
这是因为, 渐进正态,方差为 ;而 则依概率收敛于 。于是两者的乘积也应该是渐进正态的,而且方差应该是 ,那么夹心估计量公式,两者的乘积的协方差矩阵就应该是: 。
这里引用一个数学定理:如果函数 在 内连续可导,那么 的海塞矩阵 在 必是对称的。那么我们知道 是对称的,于是其协方差矩阵就可以写成: 的形式。
下面分别计算 和 。
由于 是 的,那么 ( 的期望处处相等)因此:
这里的技巧是,如果 ,那么当然 啦
然后运用了海塞矩阵做分解的等式:
然后我们前面已经定义了信息矩阵: ,那其实后面的这个二阶偏导数矩阵的期望其实就是一个海塞矩阵,我们只是把它记为 罢了。所以教材的符号比较混乱,学习的时候一定要注意!
同样的 也是 的,于是 ( 的方差处处相等)。我们在上一篇文章证明3已经证明了得分函数的方差就是信息矩阵,于是乎:
于是我们惊讶地发现:
于是我们就证明了:
6.6 最大似然估计量的渐近协方差矩阵
在大样本下,最大似然估计量的渐近协方差矩阵为:
显然,这个渐近协方差矩阵依赖于未知参数 。对于MLE的渐近协方差矩阵,文献中有以下三种估计方法:
6.6.1 期望值法
如果知道黑塞矩阵期望值的具体函数形式,则直接用 代替 可得:
不过,由于LLF可能是非线性的,于是其期望值可能没有解析解,所以此法很少用。
6.6.2 观测信息矩阵法
用 代替 后,干脆不计算期望,直接让:
这种方法在Stata中被称为“观测信息矩阵”(Observed Information Matrix,OIM)法,即直接使用观测到的信息矩阵。其缺点是二阶导数可能不好计算,不过这是Stata的默认方法
6.6.3 梯度向量外积或BHHH法
利用信息矩阵等式:
直接用 即 来估计 ,即:
其中, 是第 个观测值对得分函数的贡献之估计值。此方法被称为梯度向量外积
(Outer Product of Gradients, OPG)或 BHHH(由四个姓名首字母分别为B、H、H、H的作者提出)方法。它只需要计算一阶导数,十分方便。BHHH的另外一个优点是,它计算出来的协方差矩阵一定是非负定的,而OIM法的协方差估计量则没有保证(大样本下可以保证)。
证明:可以用 来估计 ,即BHHH法
而且:
于是:
由于:
所以 是 的一致估计证毕。
以上三种估计协方差矩阵的方法在大样本下是渐近等价的,不过在小样本中可能差别比较大。另外,三种计算渐进方差的方法都建立在似然函数正确的前提下。