ESL 3: Linear Methods for Regression

一个线性回归模型假设回归函数 E(Y|X) 对于输入 X 是线性的。
它的优势在于:

  • 简单
  • 能够表示每个输入对输出的影响
  • 输入可以进行变换
  • 他们有时候比复杂的方法更精准,尤其是在样本数量少、低信噪比或者稀疏矩阵的情形。

3.2 Linear Regression Models and Least Squares

p 维线性回归模型形式如下:

f(X) = \beta_0 + \sum_{j=1}^p X_j \beta_j

我们需要估计一组参数 \beta,使残差平方和(Residual Sum of Squares)最小:

\begin{align} \text{RSS}(\boldsymbol{\beta}) &= (\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} )^T(\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} ) \\ &= \boldsymbol{y}^T\boldsymbol{y} - \boldsymbol{y}^T\boldsymbol{X}\boldsymbol{\beta} - \boldsymbol{\beta}^T\boldsymbol{X}^T\boldsymbol{y} + \boldsymbol{\beta}^T\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{\beta} \end{align}

其中,\boldsymbol{X} 是一个 N \times (p+1) 矩阵,\boldsymbol{y}N \times 1 观测值。

\beta 求导可以得到:

\frac{\partial \text{RSS}(\beta)}{\partial \beta} = -2 \boldsymbol{X}^T\boldsymbol{y} + 2\boldsymbol{X}^T\boldsymbol{X} \boldsymbol{\beta}

由于二阶导数正定,令一阶导数为 0 向量,得出极值点(即估计值):

\hat{\beta}= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}

\hat{\boldsymbol{y}} = \boldsymbol{X} \hat{\beta} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}

我们称 \boldsymbol{H} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T 为估计矩阵("hat" matrix),它满足对称性和幂等性:

\boldsymbol{H}^T = \boldsymbol{H}

\boldsymbol{H}^T\boldsymbol{H} = \boldsymbol{H}

\boldsymbol{X} 中某些列线性相关(即非满秩矩阵)时,(\boldsymbol{X}^T\boldsymbol{X}) 是奇异矩阵,它只能求广义逆矩阵,不止一个解。因此,我们需要将冗余的输入剔除掉,大部分求解软件都实现了这个功能。

估计参数的统计特性

为了确定估计的参数 \boldsymbol{\hat{\beta}} 的统计特性,我们假设:

  • 每个观测值 y_i 相互独立
  • y_i有固定的噪声 \varepsilon \sim N(0, \sigma^2)

那么估计值 \hat{\beta} 的方差为:

\text{Var}(\hat{\beta}) = (\boldsymbol{X}^T\boldsymbol{X})^{-1} \sigma^2

where :

\hat{\sigma}^2 = \frac{\text{RSS}}{N-p-1}= \frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

证明

N 个 y 的观测值可以表示为:

\boldsymbol{y} = \boldsymbol{X}\beta + \boldsymbol{\varepsilon}

其中 \boldsymbol{\varepsilon}N \times 1 的噪声。因此有:
\begin{align} \hat{\beta} &= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y} \\ &= \beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon} \end{align}

无偏性(期望值为 \beta):
E(\hat{\beta}) = \beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T E(\boldsymbol{\varepsilon}) = \beta

协方差矩阵(注意是\beta \beta^T 而非 \beta^T \beta,是一个矩阵):

\begin{align} \text{Var}(\hat{\beta}) &= E[(\beta - \hat{\beta})(\beta - \hat{\beta})^T] \\ &=E[(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T\boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}] \\ &= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T E(\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T) \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1} \\ &= \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T \boldsymbol{I} \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1} \\ &= \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1} \end{align}

可以得到:

\hat{\beta} \sim N(\beta, \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1})

下面来确定 \sigma^2 。

我们可以通过观测值 y 和预测值 \hat{y} 的差来得到噪声 \varepsilon。

\begin{align} \boldsymbol{y - \hat{y}} &= \boldsymbol{X}\beta + \boldsymbol{\varepsilon} -\boldsymbol{X}\hat{\beta} \\ &= \boldsymbol{X}\beta + \boldsymbol{\varepsilon} - \boldsymbol{X}(\beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon}) \\ &= (\boldsymbol{I -H} )\boldsymbol{\varepsilon} \end{align}

\begin{align} \sum_{i=1}^N(y_i - \hat{y_i})^2 &= (\boldsymbol{y - \hat{y}})^T (\boldsymbol{y - \hat{y}}) \\ &= \boldsymbol{\varepsilon}^T(\boldsymbol{I - H}) \boldsymbol{\varepsilon} \\ &= \sum_{k =1}^N \varepsilon_k^2- \sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij} \end{align}

其期望值为:

\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= E[\sum_{k =1}^N \varepsilon_k^2- \sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij} ] \\ &= N\sigma^2 - E(\sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij}) \end{align}

由于 \varepsilon_i, \varepsilon_j 是独立的,当 i \neq j 时:
\text{Cov}(\varepsilon_i, \varepsilon_j) = E(\varepsilon_i \varepsilon_j) - E(\varepsilon_i)E(\varepsilon_j) = 0

因此:
\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= N\sigma^2 - E(\sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij}) \\ &= N\sigma^2 - E(\sum_{i=1}^{N}\varepsilon_i^2H_{ii}) \\ &= \sigma^2[N - \text{trace}(\boldsymbol{H})] \end{align}

这里再利用公式:
\text{trace}(ABC) = \text{trace}(CAB)

得到:

\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= \sigma^2[N - \text{trace}(\boldsymbol{H})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{X(X^TX)^{-1}X^T})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{X^TX(X^TX)^{-1}}_{(p+1) \times (p+1)})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{I}_{(p+1) \times (p+1)})] \\ &= \sigma^2(N - p -1) \end{align}

因此,对 \sigma^2 的无偏估计就是:

\hat{\sigma}^2 = \frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

模型误差的统计特性

由于我们对第 i 个样本的噪声 \varepsilon_i 无偏估计就是 \hat{\varepsilon_i} = y_i - \hat{y_i},我们计算其方差:

\begin{align} \text{Var}(\hat{\boldsymbol{\varepsilon}}) &= \text{Var}(\boldsymbol{y} - \hat{\boldsymbol{y}}) \\ &= \text{Var}[(\boldsymbol{I} - \boldsymbol{H}){\boldsymbol{\varepsilon}}] \end{align}

由于 D(AX) = AD(X)A^T

\begin{align} \text{Var}(\hat{\boldsymbol{\varepsilon}}) &= \text{Var}[(\boldsymbol{I} - \boldsymbol{H}){\boldsymbol{\varepsilon}}] \\ &= (\boldsymbol{I} - \boldsymbol{H}) \text{Var}(\boldsymbol{\varepsilon}) (\boldsymbol{I} - \boldsymbol{H}) \end{align}

由于 \varepsilon \sim N(0, \sigma^2),因此:

\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{I}_{N \times N}

\boldsymbol{H} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T 满足对称性和幂等性:

\boldsymbol{H}^T = \boldsymbol{H}

\boldsymbol{H}^T\boldsymbol{H} = \boldsymbol{H}

因此有结论:

\text{Var}(\hat{\boldsymbol{\varepsilon}}) = \sigma^2 (\boldsymbol{I} - \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T)

显著性分析

当我们判断哪些参数可以忽略以降低模型复杂度时,我们可以使用 F-statistic 进行显著性分析。假设我们将 \beta 维度从 p_1 + 1 降低到 p_0 + 1

F = \frac{(\text{RSS}_0 - \text{RSS}_1) / (p_1 - p_0)}{\text{RSS}_1 / (N- p_1 -1)}

F-statistic 描述了每个被忽略的参数对 RSS 的平均贡献,用 \hat{\sigma}^2 进行了 normalize。

p_1 - p_0 =1 即仅去掉一个参数时(假设 \beta_j = 0),该公式可以简化为对应的 z-score 的平方,其中 z-score 为:

z_j = \frac{\hat{\beta}_j}{\hat{\sigma} \sqrt{v_j} }

where:

\hat{\sigma}^2 =\frac{\text{RSS}_1}{N-p-1} =\frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

v_j = (\boldsymbol{X}^T\boldsymbol{X})^{-1}_{jj}

证明

这个证明同时也是习题 3.1

Ex. 3.1 Show that the F statistic (3.13) for dropping a single coefficient from a model is equal to the square of the corresponding z-score (3.12).

实际上我们需要证明,在去掉模型的第 j 个参数后:

\text{RSS}_0 - \text{RSS}_1 = \frac{\hat{\beta}_j^2}{v_j}

上式中唯一未知的就是 \text{RSS}_0,它实质上是求一个带约束的优化问题:

\begin{align} \min_{\beta \in \mathbb{R}^{(p+1) \times 1}} (\textbf{y} - \textbf{X}\beta)^T(\textbf{y}-\textbf{X}\beta) \\ \text{s.t.} ~\beta_j = 0 \end{align}

我们可以用拉格朗日乘子法来解决。

L(\beta, \lambda) = (\textbf{y} - \textbf{X}\beta)^T(\textbf{y}-\textbf{X}\beta) + \lambda e_j^T \beta

\beta 求导,并令导数为 0,有:

\frac{\partial L(\beta, \lambda)}{\partial \beta} = - 2\textbf{X}^T(\textbf{y} - \textbf{X}\beta) + \lambda e_j = 0

解出:

\begin{align} \beta_0 &= (\textbf{X}^T\textbf{X})^{-1} \textbf{X}^T\textbf{y} - \frac{\lambda}{2}(\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \hat{\beta}- \frac{\lambda}{2}(\textbf{X}^T \textbf{X})^{-1} e_j \end{align}

等式两边乘以 e_j^T,并带入\beta_j = 0,有:
\begin{align} e_j^T\beta_0 = 0 &= e_j^T \hat{\beta} + \frac{\lambda}{2} e_j^T(\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \hat{\beta}_j + \frac{\lambda}{2}v_j \end{align}

因此有:
\lambda = - \frac{2\hat{\beta}_j}{v_j}

带入可得:
\begin{align} \text{RSS}_0 &= (\textbf{y} - \textbf{X}\beta_0)^T(\textbf{y}-\textbf{X}\beta_0) \\ &= (\textbf{y} - \textbf{X}\hat{\beta} + \frac{\lambda}{2}\textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j)^T(\textbf{y}-\textbf{X}\hat{\beta} + \frac{\lambda}{2}\textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j) \\ &= \text{RSS}_1 + \frac{\lambda}{2} [e_j^T(\textbf{X}^T \textbf{X})^{-1}\textbf{X}^T(\textbf{y} - \textbf{X}\hat{\beta}) + (\textbf{y} - \textbf{X}\hat{\beta})^T \textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j)] \\ &~~~~ + \frac{\lambda^2}{4}e_j^T (\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \text{RSS}_1 + \frac{\lambda^2}{4}e_j^T (\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \text{RSS}_1 + \frac{\hat{\beta}_j^2}{v_j} \end{align}

其中,中间项可以消去的原因是:

\textbf{X}^T(\textbf{y} - \textbf{X}\hat{\beta}) = \textbf{X}^T[\textbf{y} - \textbf{X}(\textbf{X}^T \textbf{X})^{-1}\textbf{X}^T\textbf{y}] = 0

直观理解,\textbf{X}\textbf{y} - \textbf{X}\hat{\beta} 是正交的,因为 \textbf{X}\hat{\beta} 正是 \textbf{y}\textbf{X} 所在平面上的投影。

3.2.2 The Gauss–Markov Theorem

最小二乘法得出的 \beta 在所有线性无偏估计中均方误差最小。当然,如果我们愿意为了进一步减小误差引入一点 bias,完全可能找到一个更小均方误差的有偏估计。

the least squares estimates of the parameters β have the smallest variance among all linear unbiased estimates

现在我们来证明这个结论。对于线性估计:
\boldsymbol{y} = \boldsymbol{X}\beta
\boldsymbol{y} 中的每一个元素都可以看作 \boldsymbol{X} 中的一行与向量 \beta 的线性组合。

无偏性

那么,针对无偏性,我们需要证明最小二乘法估计出的 \hat{\beta} 满足:

E(\alpha^T \hat{\beta}) = \alpha^T\beta

其中 \alpha 是任意向量。

\begin{align} E(\alpha^T \hat{\beta}) &= E(\alpha^T (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}) \\ &= E(\alpha^T (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{X} \beta) \\ &= \alpha^T \beta \end{align}

均方误差最小

Gauss–Markov theorem 指出,如果还存在其他线性估计 c^T \boldsymbol{y} 满足:
E(c^T \boldsymbol{y}) = \alpha^T\beta
那么必然有:

\text{Var}(\alpha^T \hat{\beta}) \leq \text{Var}(c^T \boldsymbol{y})

证明:

TBD

3.3 Subset Selection

最小二乘法的两个主要问题:

  • 预测精度。虽然它是无偏的,但是方差很大。如果我们忽略一部分模型参数,虽然会变成有偏估计,但是可能会极大提高精度。
  • 可解释性(即模型复杂度)。当模型参数很多时,我们想去确定一小部分具有最大影响的模型参数,为此我们愿意牺牲一部分无关紧要的参数。

因此,我们需要选取变量子集,即“model selection”。

3.3.1 Best-Subset Selection

最佳子集是指从所有具有 k (k <= p) 个变量的子集中,RSS 最小的那个。

当然,最简单的方式就是从遍历所有的组合。这样做的复杂度是 2^p,只适用于小规模的问题。

3.3.2 Forward- and Backward-Stepwise Selection

“前向逐步选择”是一种贪心算法。它按顺序加入最能提高拟合度的参数。它虽然不一定找到最优解,但是它优势在于:

  • 运算量小。当维度 p >= 40 时,几乎无法算出最优解。但是依旧可以用 forward stepwise selection (即使维度 p 大于样本数 N)。
  • 方差小。最优子集方差比 forward stepwise selection 大,虽然后者可能会有一定的 bias。
Subset selection

那么如何选择“最能提高拟合度“的参数呢?我们在之前“显著性分析”中已经证明了,去掉一个参数对残差的影响为其 z-score 的平方。那么,我们直接从 z-score 最大的参数开始依次加入即可。第 j 个参数的 z-score 可以由于下式计算:

z_j = \frac{\hat{\beta}_j}{\hat{\sigma} \sqrt{v_j} }

where:

\hat{\sigma}^2 =\frac{\text{RSS}_1}{N-p-1} =\frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

v_j = (\boldsymbol{X}^T\boldsymbol{X})^{-1}_{jj}

“后向逐步选择” 与 “前向逐步选择“相反。它从全集开始,依次去掉最无关紧要的变量(z-score 最小的)。它只能用于样本数 N 大于维度 p 的情形。

3.4 Shrinkage Methods

Subset selection 确实可以帮我们简化模型,并且还可能降低误差。但是,因为它是一个离散的过程(参数要么被丢弃要么被保留,没有中间状态),它通常具有较大的方差。Shrinkage methods 更加连续,因此具有更好的性能。

3.4.1 Ridge Regression

Ridge Regression 通过给参数数量增加一个惩罚项来降低模型复杂度。它的优化目标:

\hat{\beta} = \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2

这里的 \lambda 控制模型“缩小”的程度,\lambda 越大,得到的模型复杂度越低。

值得注意的是,惩罚项中不包含常数项 \beta_0,否则模型不稳定。当选取 y_i = y_i + c 时,预测值 \hat{y}_i 的变化量不是 c。

与经典的 Linear Regression 不同,Ridge Regression 要求输入 \textbf{X}, \textbf{y} 是经过了中心化 (centering) 的。并且,这里的模型参数 \betap 维而不是 p+1 维的。

下面我们来证明这一点。

\beta_0 由于不含 \lambda,可以单独优化。我们先对 \beta_0 求导,并令导数为0:

\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j) = 0

得到:
\beta_0 = \frac{1}{N}(\sum_{i=1}^N y_i - \sum_{i=1}^N \sum_{j=1}^{p} x_{ij}\beta_j)

\overline{x_j} = \frac{1}{N} \sum_{i=1}^N x_{ij},有:

\beta_0 = \frac{1}{N}\sum_{i=1}^N y_i - \sum_{j=1}^{p} \overline{x_{j}} \beta_j

我们以下的变形主要是为了将优化目标函数写成矩阵乘法形式,以进行运算。

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \\ &= \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p \overline{x_j}\beta_j - \sum_{j=1}^p (x_{ij} - \overline{x_j}) \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \end{align}

现在我们令:

\begin{align} \beta_0^c &= \beta_0 + \sum_{j=1}^p \overline{x_j}\beta_j =\frac{1}{N} \sum_{i=1}^N y_{i} \\ \beta_j^c&= \beta_j & (j>=1) \end{align}

可以得出:

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta^c} \sum_{i=1}^N(y_i - \beta_0^c - \sum_{j=1}^p (x_{ij} - \overline{x_j}) \beta_j^c)^2 + \lambda \sum_{j=1}^p {\beta_j^c}^2 \end{align}

我们再令:

\begin{align} y_i^c &= y_i - \beta_0^c = y_i - \frac{1}{N} \sum_{i=1}^N y_i \\ x_{ij}^c&= x_{ij} - \overline{x_j} & (j >=1) \end{align}

有:

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta^c} \sum_{i=1}^N(y_i^c - \sum_{j=1}^p (x_{ij}^c \beta_j^c)^2) + \lambda \sum_{j=1}^p {\beta_j^c}^2 \\ &=\mathop{\arg \min}_{\beta} (\textbf{y} - \textbf{X}\beta)^T(\textbf{y} - \textbf{X}\beta) + \lambda(\beta^T\beta) \end{align}

其中,\textbf{X}, \textbf{y}, \beta 都经过了中心化,并且是 p 维的。

该式对 \beta 求导并令导数为 0,有:

-\textbf{X}^T(\textbf{y} - \textbf{X}\beta) + \lambda \beta = 0

解得:

\beta = (\textbf{X}^T\textbf{X} + \lambda \textbf{I})^{-1} \textbf{X}^T \textbf{y}

我们看到,即使 \textbf{X}^T\textbf{X} 是非满秩的,由于多加了一个 \lambda \textbf{I},它仍是一个可逆矩阵。这也是 ridge regression 的另一个优势。

Ridge Regression and SVD

奇异值分解 (singular value decomposition, SVD) 将一个矩阵分解为三个矩阵的乘积:

\textbf{X}_{N \times p} = \textbf{U}_{N \times N} \mathbf{\Sigma}_{N \times p} \textbf{V}^T_{p \times p}

其中:

  • \textbf{U}_{N \times N} 是一个单位正交矩阵,在 \mathbb{R}^{N \times N} 空间。它代表了旋转(rotation)
  • \mathbf{\Sigma}_{N \times p} 是一个对角矩阵,但是不一定是方阵。它代表拉伸(scaling)
  • \textbf{V}^T_{p \times p} 是一个单位正交矩阵,在 \mathbb{R}^{p \times p} 空间。它代表旋转(rotation)

对于普通的线性回归,有:

\begin{align} \hat{y} = \textbf{H}y &= \textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^Ty \\ &= \textbf{U}\mathbf{\Sigma}\textbf{V}^T(\textbf{V}\mathbf{\Sigma}^T\mathbf{\Sigma}\textbf{V}^T)^{-1} \textbf{V}\mathbf{\Sigma}^T\textbf{U}^T y \\ &= \textbf{U}\mathbf{\Sigma} (\mathbf{\Sigma}^T\mathbf{\Sigma})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \\ &= \textbf{U}\textbf{U}^T y \end{align}

而对于 ridge regression,有:

\begin{align} \hat{y} &= \textbf{X}(\textbf{X}^T\textbf{X} + \lambda \textbf{I})^{-1} \textbf{X}^T \textbf{y} \\ &= \textbf{U}\mathbf{\Sigma}(\mathbf{\Sigma}^T\mathbf{\Sigma} + \lambda \textbf{I})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \end{align}

假设 SVD 分解的奇异值为 \sigma_1, \sigma_2, ... , \sigma_p,我们有:

\begin{align} \hat{y} &= \textbf{U}\mathbf{\Sigma}(\mathbf{\Sigma}^T\mathbf{\Sigma} + \lambda \textbf{I})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \\ &= \sum_{j=1}^p \textbf{u}_j \frac{\sigma_j^2}{\sigma_j^2 + \lambda} \textbf{u}_j^T \textbf{y} \end{align}

其中 \textbf{u}_j 表示矩阵 \textbf{U} 的第 j 列。

因此,从直观意义上理解,ridge regression 相比普通的 regression 就是对 \textbf{U} 的每一列附加了一个系数 \frac{\sigma_j^2}{\sigma_j^2 + \lambda} \leq 1。这个系数与该列对应的奇异值相关。而我们在 SVD 定义中知道 \sigma_j 代表了在 \textbf{u}_j 方向的缩放系数。显然,\frac{\sigma_j^2}{\sigma_j^2 + \lambda}\sigma_j 越小时,shrinkage 越大。因此,直观理解,ridge regression 会倾向于忽略输入 \textbf{X} 方差较小的方向。

the small singular values correspond to directions in the column space of X having small variance, and ridge regression shrinks these directions the most.

这是个比较合理的假设,一般情况下,我们对于样本中几乎一样的输入参数并不是很关心.

Reference

  1. ESL solution
  2. ESL Chinese
  3. Simple Linear Regression
  4. Proofs involving ordinary least squares
最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容