高级计量经济学 12:最大似然估计(中)

高级计量经济学 12:最大似然估计(中)

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括代码和正文)做了修改。

仅供学习参考,请勿转载,侵删!


目录

  • 6 最大似然估计法
    • 6.5 最大似然法的大样本性质
      • 6.5.1 估计量的一致性
      • 6.5.2 渐近有效和渐近正态
    • 6.6 最大似然估计量的渐近协方差矩阵
      • 6.6.1 期望值法
      • 6.6.2 观测信息矩阵法
      • 6.6.3 梯度向量外积或BHHH法

\S \text{ 第 6 章 } \S

\text{最大似然估计}


6.5 最大似然法的大样本性质

MLE之所以被广泛应用,是因为MLE估计量具有良好的样本性质。在正则条件(包括参数空间 \Theta 为有界闭集、样本为独立同分布等,正则条件一般都可以满足,不必)满足下,我们在半节介绍MLE估计量的性质。总的来说,最大似然法的大样本性质有以下三点:

  • 估计量的一致性: \mathop{\rm plim}\limits_{n\to\infty} \hat{\boldsymbol\theta}_{ML} = \boldsymbol \theta_0 ,这一点可以在MLE估计量取极限 n\to\infty 得到
  • 渐进有效性:渐进协方差矩阵 \mathrm{Avar}\left( \hat{\boldsymbol \theta}_{ML} \right) = n [\boldsymbol I (\boldsymbol \theta_0)]^{-1} 在大样本下达到了克莱默-劳下限
  • 渐进正态:即 \sqrt{n}\left( \hat{\boldsymbol \theta}_{ML} - \boldsymbol \theta_0 \right) \stackrel2cccccccc8\longrightarrow N(\boldsymbol 0, n [\boldsymbol I (\boldsymbol \theta_0)]^{-1})

6.5.1 估计量的一致性

证明:一致性

为了使用大数定律,将似然函数 \ln L(\boldsymbol\theta;y_1,\cdots,y_n) = \sum_{i=1}^n \ln f(y_i;\boldsymbol\theta) ,除以 n ,并定义:
Q_n(\boldsymbol\theta) \equiv \frac{1}{n}\sum_{i=1}^n\ln f(y_i;\boldsymbol\theta)
注意,这里的 Q_n(\boldsymbol\theta) 既是 n 的函数,也是 \boldsymbol\theta 的函数。显然:
\max_\boldsymbol\theta \sum_{i=1}^n \ln f(y_i;\boldsymbol\theta) \Leftrightarrow \max_\boldsymbol\theta \frac{1}{n}\sum_{i=1}^n\ln f(y_i;\boldsymbol\theta)
对于任何 \boldsymbol\theta\{\ln f(y_i;\boldsymbol\theta)\}_{i=1}^n\text{i.i.d} 的(因为抽样是 i.i.d. 的),所以根据大数定律,样本均值收敛到总体均值:
Q_n(\boldsymbol\theta) \equiv \frac{1}{n}\sum_{i=1}^n\ln f(y_i;\boldsymbol\theta) \stackrel{p}\longrightarrow {\rm E}[\ln f(\boldsymbol y;\boldsymbol\theta)] \equiv Q(\boldsymbol\theta)
其中,Q(\boldsymbol\theta)\equiv {\rm E}[\ln f(\boldsymbol y;\boldsymbol\theta)] 仅依赖于 \boldsymbol\theta ,因为期望算子 {\rm E}(\cdot) 已经把样本数据 \boldsymbol y 积分掉(注意 \boldsymbol\theta 作为条件期望的“条件”,它并非求期望时的被积变量)。下面我们要证明 Q(\boldsymbol\theta)\boldsymbol\theta = \boldsymbol\theta_0 处存在唯一的最大值(这一步证明是为了说明“使得似然函数最大的 \boldsymbol\theta 就是真实的 \boldsymbol\theta_0”)。

为此,构造随机变量 f(\left. y;\boldsymbol\theta)\middle/f(y;\boldsymbol\theta_0 \right.) ,注意到对数函数 \ln(\cdot) 是凹函数,使用詹森不等式(Jensen's inequality)可知(Jensen's不等式有点像Cauchy不等式,在微观经济学研究风险偏好的部分会使用到的,可以自行百度)对于任意 \boldsymbol\theta \neq \boldsymbol\theta_0 ,有:
{\rm E}\left\{\ln \left[ \frac{f(\boldsymbol{y} ; \boldsymbol{\theta})}{f\left(\boldsymbol{y} ; \boldsymbol{\theta}_{0}\right)}\right]\right\}<\ln \left\{\mathrm{E}\left[\frac{f(\boldsymbol{y} ; \boldsymbol{\theta})}{f\left(\boldsymbol{y} ; \boldsymbol{\theta}_{0}\right)}\right]\right\}
把上面的不等式右边的期望写成:
\mathrm{E}\left[\frac{f(\boldsymbol{y} ; \boldsymbol{\theta})}{f\left(\boldsymbol{y} ; \boldsymbol{\theta}_{0}\right)}\right] = \int \left[\frac{f(\boldsymbol{y} ; \boldsymbol{\theta})}{f\left(\boldsymbol{y} ; \boldsymbol{\theta}_{0}\right)}\right] f\left(\boldsymbol{y} ; \boldsymbol{\theta}_{0}\right) \mathrm d y=\int f\left(\boldsymbol{y} ; \boldsymbol{\theta}\right) \mathrm dy=1
其中,\int f\left(\boldsymbol{y} ; \boldsymbol{\theta}\right) \mathrm dy=1 是因为概率密度函数的积分为1。于是上面的不等式可以写成:
{\rm E}\left\{\ln \left[ \frac{f(\boldsymbol{y} ; \boldsymbol{\theta})}{f\left(\boldsymbol{y} ; \boldsymbol{\theta}_{0}\right)}\right]\right\}<\ln \left\{\mathrm{E}\left[\frac{f(\boldsymbol{y} ; \boldsymbol{\theta})}{f\left(\boldsymbol{y} ; \boldsymbol{\theta}_{0}\right)}\right]\right\} = \ln \left\{1 \right\} = 0
也就是说:
{\rm E}\left\{\ln \left[ \frac{f(\boldsymbol{y} ; \boldsymbol{\theta})}{f\left(\boldsymbol{y} ; \boldsymbol{\theta}_{0}\right)}\right]\right\} = {\rm E}\left\{ \ln \left[ f(\boldsymbol{y} ; \boldsymbol{\theta}) - f(\boldsymbol{y} ; \boldsymbol{\theta}_0) \right] \right\} = {\rm E}(f(\boldsymbol{y} ; \boldsymbol{\theta})) -{\rm E}(f(\boldsymbol{y} ; \boldsymbol{\theta}_0))<0
也就是说,对于任意 \boldsymbol\theta \neq \boldsymbol\theta_0 ,一定有:
Q(\boldsymbol\theta) < Q(\boldsymbol\theta_0)
于是我们有:

  • Q_n(\boldsymbol\theta)\hat{\boldsymbol\theta}_{ML} 处取得最大值( \hat{\boldsymbol\theta}_{ML} 本身就是通过最大化 Q_n(\boldsymbol\theta) 来的)
  • Q(\boldsymbol\theta)\boldsymbol\theta = \boldsymbol\theta_0 处取得最大值(我们刚刚证明了)
  • Q_n(\boldsymbol\theta) \stackrel{p}\rightarrow Q(\boldsymbol\theta) (使用大数定律)

也就是说, Q_n(\boldsymbol\theta) 随着 n 变大逐渐变成 Q(\boldsymbol\theta) ,于是在 n\to\inftyQ_n(\boldsymbol\theta) 的最大值就与 Q(\boldsymbol\theta) 的最大值重合了,即 \mathop{\rm plim}\limits_{n\to\infty} \hat{\boldsymbol\theta}_{ML} = \boldsymbol \theta_0

证毕。


6.5.2 渐近有效和渐近正态

证明:渐近正态。只要证明了渐近正态,那么渐近有效也就被证明了。

根据MLE的一阶条件,得分函数为 \boldsymbol 0 向量,即:
s(\hat{\boldsymbol\theta}_{ML};\pmb y) \equiv \frac{\partial \ln L(\hat{\boldsymbol\theta}_{ML}; \pmb y)}{\partial \pmb \theta} = \pmb 0
利用微分中值定理(Mean Value Theorem),将 s(\hat{\boldsymbol\theta}_{ML};\pmb y)\boldsymbol\theta = \boldsymbol\theta_0 处进行 Taylor 展开,有:
s(\hat{\boldsymbol\theta}_{ML};\pmb y) = s(\boldsymbol\theta_0;\pmb y) + \boldsymbol H(\boldsymbol\theta^\star;\boldsymbol y)\left(\hat{\boldsymbol\theta}_{ML} - \boldsymbol\theta_0 \right) = \boldsymbol 0
这里忽略了高阶无穷小,其中:

  • \boldsymbol\theta^\star\hat{\boldsymbol\theta}_{ML}\boldsymbol\theta_0 之间,即 \exist\lambda\in(0,1),\boldsymbol\theta^\star =\lambda \cdot \hat{\boldsymbol\theta}_{ML} + (1-\lambda)\cdot\boldsymbol\theta_0
  • \boldsymbol H(\boldsymbol\theta^\star;\boldsymbol y)\boldsymbol\theta = \boldsymbol\theta^\star 处的海塞矩阵:\frac{\partial^{2} \ln L\left(\boldsymbol{\theta}^{*} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}

将 Taylor 展开的等式移项,两边同乘 \sqrt{n} ,就有:
\sqrt{n}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}-\boldsymbol{\theta}_{0}\right)=\left[-\boldsymbol{H}\left(\boldsymbol{\theta}^{*} ; \boldsymbol{y}\right)\right]^{-1} \sqrt{n} \boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)
根据MLE的一致性 \mathop{\rm plim}\limits_{n\to\infty} \hat{\boldsymbol\theta}_{ML} = \boldsymbol \theta_0 ,而 \boldsymbol\theta^\star 夹在在 \hat{\boldsymbol\theta}_{ML}\boldsymbol\theta_0 之间,于是 \mathop{\rm plim}\limits_{n\to\infty} \boldsymbol\theta^\star = \boldsymbol \theta_0 ,那么:
\sqrt{n}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}-\boldsymbol{\theta}_{0}\right) \stackrel2cccccccc8{\longrightarrow}\left[-\boldsymbol{H}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)\right]^{-1} \sqrt{n} \boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)
我们在前面已经提到,可以把得分函数分解为各个观测值的贡献,即:
s\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)=\sum_{i=1}^{n} s_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)
同样地,海塞矩阵也可以这么做分解:
\boldsymbol{H}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)=\sum_{i=1}^{n} \boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)
那么上面的收敛可以写成:
\sqrt{n}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}-\boldsymbol{\theta}_{0}\right) \stackrel2cccccccc8{\longrightarrow}\left[-\frac{1}{n} \sum_{i=1}^{n} \boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right]^{-1} \sqrt{n}\left(\frac{1}{n} \sum_{i=1}^{n} s_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right)

  • 由于样本是 \text{i.i.d.} 的, \boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right) 肯定也是 \text{i.i.d.} 的,那末我们就可以用大数定律

-\frac{1}{n} \sum_{i=1}^{n} \boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right) \stackrel{p}{\longrightarrow}-\mathrm{E}\left[\boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right]=\boldsymbol{A}_{0}

  • 由于样本是 \text{i.i.d.} 的,所以 s_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right) 肯定也是 \text{i.i.d.} 的,由于 {\rm E}[s_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)]=\boldsymbol 0 (得分函数的期望为\boldsymbol 0向量),所以可以使用中心极限定理
    \sqrt{n}\left[\frac{1}{n} \sum_{i=1}^{n} s_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right] \stackrel2cccccccc8{\longrightarrow} N\left(\mathbf{0}, \boldsymbol{B}_{0}\right),\quad\boldsymbol{B}_{0}\equiv\operatorname{Var}\left(\boldsymbol{s}_{i}\right)

于是,随着 n\to\infty ,我们就发现:
\sqrt{n}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}-\boldsymbol{\theta}_{0}\right) \stackrel2cccccccc8{\longrightarrow} N\left(\mathbf{0}, \boldsymbol{A}_{0}^{-1} \boldsymbol{B}_{0} \boldsymbol{A}_{0}^{-1}\right)

这是因为,\frac{1}{n}\sum s_i 渐进正态,方差为 {\rm Var}(s_i) ;而 \left(\frac{1}{n}\sum\boldsymbol H_i\right)^{-1} 则依概率收敛于 A_0^{-1} 。于是两者的乘积也应该是渐进正态的,而且方差应该是 {\rm Var}(A_0^{-1}s_i) ,那么夹心估计量公式,两者的乘积的协方差矩阵就应该是: \boldsymbol{A}_{0}^{-1} \boldsymbol{B}_{0} \left(\boldsymbol{A}_{0}^{-1}\right)^\prime 。

这里引用一个数学定理:如果函数 fD 内连续可导,那么 f 的海塞矩阵 H(f)D 必是对称的。那么我们知道 A_0^{-1} 是对称的,于是其协方差矩阵就可以写成:\boldsymbol{A}_{0}^{-1} \boldsymbol{B}_{0} \boldsymbol{A}_{0}^{-1} 的形式。

下面分别计算 A_0B_0 。

由于 \boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\text{i.i.d.} 的,那么 {\rm E}[\boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)] = {\rm E}[\boldsymbol{H}_{j}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{j}\right)],\forall i,jH_i 的期望处处相等)因此:
\begin{aligned} \boldsymbol{A}_{0} &=-\mathrm{E}\left[\boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right]=-\frac{1}{n} \sum_{i=1}^{n} \mathrm{E}\left[\boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right] \nonumber \\ &=-\frac{1}{n} \mathrm{E}\left\{\sum_{i=1}^{n}\left[\boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right]\right\}=-\frac{1}{n} \mathrm{E}\left[\boldsymbol{H}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)\right]=\frac{1}{n} \boldsymbol{I}\left(\boldsymbol{\theta}_{0}\right) \nonumber \end{aligned}

  • 这里的技巧是,如果 x_1 = \cdots =x_n ,那么当然 x_i = \frac{1}{n}\sum_{i=1}^n x_i

  • 然后运用了海塞矩阵做分解的等式:\boldsymbol{H}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)=\sum_{i=1}^{n} \boldsymbol{H}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)

  • 然后我们前面已经定义了信息矩阵:\boldsymbol I(\boldsymbol \theta) \equiv -{\rm E}\left[ \frac{\partial^2 \ln L(\boldsymbol\theta;\boldsymbol y)}{\partial \boldsymbol\theta^\prime\partial\boldsymbol\theta} \right] ,那其实后面的这个二阶偏导数矩阵的期望其实就是一个海塞矩阵,我们只是把它记为 {\rm E}\left[ \frac{\partial^2 \ln L(\boldsymbol\theta;\boldsymbol y)}{\partial \boldsymbol\theta^\prime\partial\boldsymbol\theta} \right] \equiv\boldsymbol{H}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right) 罢了。所以教材的符号比较混乱,学习的时候一定要注意!

同样的 s_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right) 也是 \text{i.i.d.} 的,于是 {\rm Var}(s_i) = {\rm Var}(s_j),\forall i,js_i 的方差处处相等)。我们在上一篇文章证明3已经证明了得分函数的方差就是信息矩阵,于是乎:
\begin{aligned} I\left(\boldsymbol{\theta}_{0}\right) &=\operatorname{Var}\left[\boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)\right]=\operatorname{Var}\left[\sum_{i=1}^{n} s_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right] \\ &=\sum_{i=1}^{n} \operatorname{Var}\left[\boldsymbol{s}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right]=n \operatorname{Var}\left[\boldsymbol{s}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right] = n\boldsymbol{B}_{0} \end{aligned}
于是我们惊讶地发现:
\boldsymbol{B}_{0}=\operatorname{Var}\left[\boldsymbol{s}_{i}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)\right]=\frac{1}{n} \boldsymbol{I}\left(\boldsymbol{\theta}_{0}\right)=\boldsymbol{A}_{0}
于是我们就证明了:
\sqrt{n}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}-\boldsymbol{\theta}_{0}\right) \stackrel2cccccccc8{\longrightarrow} N\left(\mathbf{0}, \boldsymbol{A}_{0}^{-1}\right)=N\left(\boldsymbol{0}, n\left[\boldsymbol{I}\left(\boldsymbol{\theta}_{0}\right)\right]^{-1}\right)


6.6 最大似然估计量的渐近协方差矩阵

在大样本下,最大似然估计量的渐近协方差矩阵为:
\operatorname{Avar}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}\right)=n\left[\boldsymbol{I}\left(\boldsymbol{\theta}_{0}\right)\right]^{-1}=n\left\{-\mathrm{E}\left[\frac{\partial^{2} \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}\right]\right\}^{-1}
显然,这个渐近协方差矩阵依赖于未知参数 \boldsymbol \theta_0 。对于MLE的渐近协方差矩阵,文献中有以下三种估计方法:

6.6.1 期望值法

如果知道黑塞矩阵期望值的具体函数形式,则直接用 \hat{\boldsymbol\theta}_{ML} 代替 \boldsymbol\theta_0 可得:
\widehat{\operatorname{Avar}}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}\right)=n\left\{-\mathrm{E}\left[\frac{\partial^{2} \ln L\left(\hat{\boldsymbol{\theta}}_{\mathrm{M} \mathrm{t}} ; \boldsymbol{y}\right)}{\partial \hat{\boldsymbol{\theta}} \partial \hat{\boldsymbol{\theta}}^{\prime}}\right]\right\}^{-1}
不过,由于LLF可能是非线性的,于是其期望值可能没有解析解,所以此法很少用。


6.6.2 观测信息矩阵法

\hat{\boldsymbol\theta}_{ML} 代替 \boldsymbol\theta_0 后,干脆不计算期望,直接让:
\widehat{\operatorname{Avar}}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}\right)=n\left[-\frac{\partial^{2} \ln L\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}} ; \boldsymbol{y}\right)}{\partial \hat{\boldsymbol{\theta}} \partial \hat{\boldsymbol{\theta}}^{\prime}}\right]^{-1}
这种方法在Stata中被称为“观测信息矩阵”(Observed Information Matrix,OIM)法,即直接使用观测到的信息矩阵。其缺点是二阶导数可能不好计算,不过这是Stata的默认方法


6.6.3 梯度向量外积或BHHH法

利用信息矩阵等式:
\boldsymbol{I}\left(\boldsymbol{\theta}_{0}\right)=-\mathrm{E}\left[\frac{\partial^{2} \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}\right]=\mathrm{E}\left[\frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right) }{\partial \boldsymbol{\theta}} \cdot \frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta}^\prime}\right]=\mathrm{E}\left[\boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right) \boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)^{\prime}\right]
直接用 \mathrm{E}\left[\boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right) \boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)^{\prime}\right]\sum_{i=1}^n \hat{s}_i \hat s_i^\prime 来估计 \boldsymbol I(\boldsymbol \theta_0) ,即:
\widehat{\operatorname{Avar}}\left(\hat{\theta}_{\mathrm{ML}}\right)=n\left(\sum_{i=1}^{n} \hat{s}_{i} \hat{s}_{i}^{\prime}\right)^{-1},\quad \hat{\boldsymbol{s}}_{i} \equiv \frac{\partial \ln f\left(\boldsymbol{y}_{i} ; \hat{\boldsymbol{\theta}}_{\mathrm{ML}}\right)}{\partial \boldsymbol{\theta}}
其中, \hat s_i 是第 i 个观测值对得分函数的贡献之估计值。此方法被称为梯度向量外积(Outer Product of Gradients, OPG)或 BHHH(由四个姓名首字母分别为B、H、H、H的作者提出)方法。它只需要计算一阶导数,十分方便。BHHH的另外一个优点是,它计算出来的协方差矩阵一定是非负定的,而OIM法的协方差估计量则没有保证(大样本下可以保证)。

证明:可以用 \sum_{i=1}^n \hat{s}_i \hat s_i^\prime 来估计 \boldsymbol I(\boldsymbol \theta_0) ,即BHHH法
\frac{\partial \ln L(\boldsymbol{\theta} ; \boldsymbol{y})}{\partial \boldsymbol{\theta}}=\frac{\partial\left[\sum_{i=1}^{n} \ln f\left(\boldsymbol{y}_{i} ; \boldsymbol{\theta}\right)\right]}{\partial \boldsymbol{\theta}}=\sum_{i=1}^{n} \frac{\partial \ln f\left(\boldsymbol{y}_{i} ; \boldsymbol{\theta}\right)}{\partial \boldsymbol{\theta}} \equiv \sum_{i=1}^{n} s_{i}
而且:
\frac{\partial^{2} \ln L(\boldsymbol{\theta} ; \boldsymbol{y})}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}=\sum_{i=1}^{n} \frac{\partial^{2} \ln f\left(\boldsymbol{y}_{i} ; \boldsymbol{\theta}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}
于是:
\begin{aligned} \boldsymbol{I}\left(\boldsymbol{\theta}_{0}\right) &=-\mathrm{E}\left[\frac{\partial^{2} \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}\right] \nonumber \\ (样本信息矩阵的分解)&=-\mathrm{E}\left[\sum_{i=1}^{n} \frac{\partial^{2} \ln f\left(\boldsymbol{y}_{i} ; \boldsymbol{\theta}_{0}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}\right] \nonumber \\ (交换期望和求和符号)&=\sum_{i=1}^{n}\left[-\mathrm{E}\left(\frac{\partial^{2} \ln f\left(\boldsymbol{y}_{i} ; \boldsymbol{\theta}_{0}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}\right)\right] \nonumber \\ (信息矩阵等式)&=\sum_{i=1}^{n}\left[\mathrm{E}\left(\frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}_{i}\right)}{\partial \boldsymbol{\theta}^{\prime}}\right)\right] \nonumber \\ (s_i的定义)&=\sum_{i=1}^{n} \mathrm{E}\left(\boldsymbol{s}_{i} \boldsymbol{s}_{i}^{\prime}\right) \nonumber \\ (\text{i.i.d.}假设)&=n \mathrm{E}\left(\boldsymbol{s}_{i} \boldsymbol{s}_{i}^{\prime}\right) \nonumber \end{aligned}
由于:
\sum_{i=1}^{n} \hat{s}_{i} \hat{s}_{i}^{\prime}=n\left(\frac{1}{n} \sum_{i=1}^{n} \hat{s}_{i} \hat{s}_{i}^{\prime}\right),\quad \frac{1}{n} \sum_{i=1}^{n} \hat{s}_{i} \hat{s}_{i}^{\prime} \stackrel{p}{\longrightarrow} \mathrm{E}\left(s_{i} s_{i}^{\prime}\right)
所以 \sum_{i=1}^n \hat{s}_i \hat s_i^\prime\boldsymbol I(\boldsymbol \theta_0) 的一致估计

证毕。

以上三种估计协方差矩阵的方法在大样本下是渐近等价的,不过在小样本中可能差别比较大。另外,三种计算渐进方差的方法都建立在似然函数正确的前提下。

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352