经典论文Batch Normalization阅读笔记

本文写作参考经典论文 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

论文假设

学过机器学习的朋友们都知道机器学习的假设是我们的训练集、验证集、测试集、都服从同一个分布而我们要做的就是从假设空间中选取一类假设函数去拟合这样的一个数据分布,在机器学习界有一句经典的话数据样本决定了训练的上限而我们的模型不过是将这个上限跑出来。
我们的训练数据是在总体分布上的一个采样,正因为如此才使得我们能够用有限的数据去对整体分布进行拟合,拟合之后的模型具有泛化能力。在传统的机器学习算法中比如线性回归、逻辑回归、支持向量机等,这些算法的假设函数都比较简单一般都不是复合函数因此在拟合的过程中不会改变训练数据的分布,模型的训练比较简单,但是在深度学习中模型的训练是很复杂的,由于网络层数的原因就会导致一个问题,这个问题就是网络深层的输入数据分布会受到浅层的数据和参数的影响,有可能导致深层的输入数据分布改变从而导致每一层去拟合其对应来自前层输入数据的时候需要重新拟合一个数据分布这将导致网络的训练变得困难。

为方便起见拿机器学习中线性回归举例,其假设函数为f(x)=wx+b,在梯度下降的过程中我们并没有改变数据的x的分布因此这样的模型训练是很简单的,但是对于深度学习DNN或CNN而言并非如此了,下面拿VGG16深度卷积神经网络举例。

VGG16

暂且忽略掉池化层考虑卷积层和全连接层(FC)如果将卷积神经网络的每一个卷积层和全连接层都看做一个独立的单元将这些独立单元称之为子网络。那么每一层子网络都是在拟合其输入的数据,而其输入数据又受到其前层网络参数的影响,而我们的每一个子网络在做的事情都是在拟合其输入数据的分布,但是由于每一个子网络的输入都受到其前层网络的影响,梯度下降的过程中随着参数的改变就算是同一个mini-batch的数据在重复输入的时候其输入到子网络的数据都发生了改变,这种改变将有可能改变其输入数据的分布,这就意味着子网络将重新拟合新的分布来减少损失函数值,这样就会导致网络训练的训练次数增加。论文中将这种由于子网络输入数据受到其前层子网络参数影响导致改变输入数据分布改变的现象定义为内协变量偏移( Internel Covariate Shift)。

论文所提算法思想

算法思想是很简单的,由于深度学习网络层数的原因导致内协变量问题的产生从而减慢了网络的训练次数。而内协变量偏移指的就是数据分布发生了改变那么我们是否有办法将输入每一个子网络的输入数据分布固定住或者是减少输入数据分布改变的幅度来增加网络的训练速度嘞?论文作者就想出了一个办法通过对每一个mini-batch作一个Normalization来实现。

BN算法图片出自所提论文

论文中是考虑固定住每一个子网络的输入数据分布来减少内协变量偏移的,通过对每一个mini-batch做标准化即每一个mini-batch中feature map的每个元素减去batch的均值比上标准差然后在进行一个仿射变换来实现的。标准化后的数据服从一个均值为0方差为1的分布,这样的处理对训练有很大的好处。当网络进行前向传播由前层传向深层的时候由于其每一层子网络的输入数据都与前层有关,这导致只要前层的参数有一个微小的扰动就有可能导致馈入子网络数据发生很大的变化使得分布的改变会很大,当进行了标准化之后对数据进行了压缩,数据的差异就不会这么大,而且分布的均值始终为零方差始终为一这就使得分布变得比之前很稳定,而且在没有进行标准化之前子网络的输入数据分布通常都与前层数据有很大的相关性,这样就会导致前层网络数据改变会导致子网络也发生很大改变,而标准化后的数据在一定程度上会减少与其前层网络数据分布的相关性,这就使得馈入每一个子网络的输入数据分布都变得很稳定且与前层网络数据分布的相关性减弱,这样在每一层拟合数据的时候就不用因为数据分布的改变重新大幅度调整参数来进行拟合。而且BN算法图中的仿射变换能够保证即便数据在不进行Normalization处理的时候是最优的也能够恢复到原来的状态,只要将参数学习成标准差和均值就可以实现。注意标准化之后的分布与其前层不一定独立同分布也不一定是高斯分布,但是他能够有效的加速深度网络的学习。

由于将子网络的输入数据进行了压缩当时用sigmoid进行非线性映射的时候就能够有效的防止由于sigmoid激活函数特性导致的当数据值很大或很小的时候导致的梯度弥散。而且由于Normalization固定住了从前层传递而来馈入当前子网络的数据的分布,也在一定程度上改变了原始的数据分布这使得模型在训练的过程中在一定程度上能够拥有防止过拟合的能力,进行了BN处理之后的网络往往能够抛弃Dropout和一定程度上的正则化操作这在论文中都有实验。

通过BN操作能够增大学习率的选择范围。当学习率选取很大的时候将很容易导致梯度爆炸问题,而由于BN算法对数据进行变换的性质权值尺度变换不会影响BN之后的值而且梯度会自动进行调整当输入数据尺度变换增大数据值的时候会减小梯度值,减小数据值的时候会增大梯度值,这在一定程度上能够防止梯度爆炸和梯度弥散如下图所示。

图片出自所提论文

总而言之BN算法能够极大加速深度网络的训练。

本文写作是参考论文作者理解在加上自己个人理解就像作者在论文中所言现在对BN的机制了解很有限,因此每个人都可以有不同的看法只要言之有理即可,如有不妥之处还请各位老哥老姐海涵。

论文地址:

https://arxiv.org/abs/1502.03167 本文只抽取论文精华细节请读原文

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352