【转载】深度学习:正则化方法

https://blog.csdn.net/liujiandu101/article/details/55103831


正则化是机器学习中非常重要并且非常有效的减少泛华误差的技术,特别是在深度学习模型中,由于其模型参数非常多非常容易产生过拟合。因此研究者也提出很多有效的技术防止过拟合,比较常用的技术包括:

参数添加约束,例如L1、L2范数等

训练集合扩充,例如添加噪声、数据变换等

Dropout

该文主要介绍深度学习中比较常见几类正则化方法以及常用参数选择,并试图解释其原理。

正则化技术

参数惩罚

通过对模型参数添加惩罚参数来限制模型能力,常用的就是在损失函数基础上添加范数约束。

通常情况下,深度学习中只对仿射参数添加约束,对偏置项不加约束。主要原因是偏置项一般需要较少的数据就能精确的拟合。如果添加约束常常会导致欠拟合。

L2正则

参数约束添加L2范数惩罚项,该技术也称之为Weight Decay、岭回归、Tikhonov regularization等。

通过最优化技术,例如梯度相关方法可以很快推导出,参数优化公式为

其中为学习率,相对于正常的梯度优化公式,对参数乘上一个缩减因子。

假设J是一个二次优化问题时,模型参数可以进一步表示为,即相当于在原来的参数上添加了一个控制因子,其中是参数Hessian矩阵的特征值。由此可见?

1. 当时,惩罚因子作用比较小。?

2. 当时,对应的参数会缩减至0

L1正则

对模型参数添加L1范数约束,即

如果通过梯度方法进行求解时,参数梯度为

特殊情况下,对于二次优化问题,并且假设对应的Hessian矩阵是对角矩阵,可以推导出参数递推公式为,从中可以看出?

当时,对应的参数会缩减到0,这也是和L2正则不同地方。?

对比L2优化方法,L2不会直接将参数缩减为0,而是一个非常接近于0的值。

L2 VS L1

主要区别如下:

通过上面的分析,L1相对于L2能够产生更加稀疏的模型,即当L1正则在参数w比较小的情况下,能够直接缩减至0.因此可以起到特征选择的作用,该技术也称之为 LASSO

如果从概率角度进行分析,很多范数约束相当于对参数添加先验分布,其中L2范数相当于参数服从高斯先验分布;L1范数相当于拉普拉斯分布。

范数约束-约束优化问题

从另外一个角度可以将范数约束看出带有参数的约束优化问题。带有参数惩罚的优化目标为

带约束的最优问题,可以表示为

通过KKT条件进行求解时,对应的拉格朗日函数为

从约束优化问题也可以进一步看出,L1相对于L2能产生更稀疏的解。?


从图中可以看出,L1最优解常常出现在定点处,此时某些维度上的值肯定为0.

数据集合扩充

防止过拟合最有效的方法是增加训练集合,训练集合越大过拟合概率越小。数据集合扩充是一个省时有效的方法,但是在不同领域方法不太通用。?

1. 在目标识别领域常用的方法是将图片进行旋转、缩放等(图片变换的前提是通过变换不能改变图片所属类别,例如手写数字识别,类别6和9进行旋转后容易改变类目)?

2. 语音识别中对输入数据添加随机噪声?

3. NLP中常用思路是进行近义词替换?

4. 噪声注入,可以对输入添加噪声,也可以对隐藏层或者输出层添加噪声。例如对于softmax 分类问题可以通过 Label Smoothing技术添加噪声,对于类目0-1添加噪声,则对应概率变成

Dropout

Dropout是一类通用并且计算简洁的正则化方法,在2014年被提出后广泛的使用。?

简单的说,Dropout在训练过程中,随机的丢弃一部分输入,此时丢弃部分对应的参数不会更新。相当于Dropout是一个集成方法,将所有子网络结果进行合并,通过随机丢弃输入可以得到各种子网络。例如?


例如上图,通过不同的输入屏蔽相当于学习到所有子网络结构。

因此前向传播过程变成如下形式:?


相当于每层输入多了一个屏蔽向量来控制该层有哪些输入会被屏蔽掉。

经验:原始输入每一个节点选择概率0.8,隐藏层选择概率为0.5

Dropout预测策略

既然Dropout过程类似于集成方法,预测时需要将所有相关模型进行求平均,对于Dropout而言,然而遍历所有屏蔽变量不是可能的事情,因此需要一些策略进行预测。?

1. 随机选择10-20个屏蔽向量就可以得到一个较好的解。?

2. 采用几何平均然后在归一化的思路。

因此只要估计出,2012年Hinton给出一种估计方法,可以只需要一遍前向传播计算最终估计值,模型参数乘上其对应输入单元被包含的概率。该方法也被称为“Weight scaling inference rule”?

3. 由于隐藏层节点drop的概率常选取0.5,因此模型权重常常除2即可;也可以在训练阶段将模型参数乘上2

dropout预测实例

假设对于多分类问题,采用softmax进行多分类,假设只有一个隐藏层,输入变量为v,输入的屏蔽变量为 d,d元素选取概率为1/2.?

则有?

d*v 代表对应元素相乘,根据几何平均,需要估计?

每一步推导基本上都是公式代入的过程,仔细一点看懂没问题。?

最后一步需要遍历所有的屏蔽向量d,然而完全遍历并且累加后可以得到2^n-1,在除以2^n,最后得到1/2.?

简单以二维举例,则d可以选择的范围包括(0,0)(0,1)(1,0)(1,1)则每一维度都累加了2次,除以4可以得到1/2

DROPOUT的优点

相比于weight decay、范数约束等,该策略更有效

计算复杂度低,实现简单而且可以用于其他非深度学习模型

但是当训练数据较少时,效果不好

dropout训练过程中的随机过程不是充分也不是必要条件,可以构造不变的屏蔽参数,也能够得到足够好的解。

其他

半监督学习

通过参数共享的方法,通过共享P(x)和P(y|x)的底层参数能有效解决过拟合。

多任务学习

多任务学习通过多个任务之间的样本采样来达到减少泛化误差。?

多任务学习可以将多个相关任务同时学习,并且共享某些参数。多任务可以包括有监督和无监督学习。?

对于深度学习而言,可以共享底层隐藏层自然支持多任务学习。

提前停止(Early Stopping)

在模型训练过程中经常出现随着不断迭代,训练误差不断减少,但是验证误差减少后开始增长。?

提前停止(Early Stopping)的策略是:在验证误差不在提升后,提前结束训练;而不是一直等待验证误差到最小值。

提前停止策略使用起来非常方便,不需要改变原有损失函数,简单而且执行效率高。

但是它需要一个额外的空间来备份一份参数

提前停止策略可以和其他正则化策略一起使用。

提前停止策略确定训练迭代次数后,有两种策略来充分利用训练数据,一是将全量训练数据一起训练一定迭代次数;二是迭代训练流程直到训练误差小于提前停止策略的验证误差。

对于二次优化目标和线性模型,提前停止策略相当于L2正则化。

参数共享

前提假设:如果两个学习任务比较相似,我们相信两个模型参数比较接近。因此可以加上一些约束条件,例如假设惩罚项

添加范数惩罚只是参数共享的一种策略,比较通用的策略是可以让部分参数集合保持一致。

集成化方法(Ensemble Methods)

Bagging方法是一种通用的降低泛化误差的方法,通过合并多个模型的结果,也叫作模型平均,高级称呼为 集成化方法。

Bagging的策略很多,例如不同初始化方法、不同mini batch选择方法、不同的超参数选择方法。

与之对应的集成方法是Boosting,通过改变样本权重来训练不同模型。

对抗训练

对抗训练的一个主要思路是,总有些输入变量x和x’,他们本身非常相似但是属于不同的类别。如果能单独拿出来特殊对待能够取得比较好的效果。?

主要问题是:对抗样本比较难搜集。

总结

正则化是模型优化中非常重要的降低泛化误差的手段,在深度学习中尤其如此,当模型效果不好时,除了调节优化算法本身外,可以尝试L1、L2正则、数据扩充、提前停止和dropout等策略

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容