深度学习是人工神经网络的一个分支,具有深度网络结构的人工神经网络是深度学习最早的网络模型。1943年,美国数学家沃尔特·皮茨(W.Pitts)和心理学家沃伦·麦克洛克(W.McCulloch)首次提出了人工神经网络这一概念,并使用数学模型对人工神经网络中的神经元进行了理论建模,开启了人们对人工神经网络的研究 [1]。1949年,著名心理学家唐纳德·奥尔丁·赫布(D. Olding Hebb)给出了神经元的数学模型,提出了人工神经网络的学习规则[2]。1957年,著名人工智能专家弗兰克·罗森布莱特(F.Rosenblatt)提出了感知器(Perceptron)人工神经网络模型,并提出采用Hebb学习规则或最小二乘法来训练感知器的参数,感知器是最早且结构最简单的人工神经网络模型。随后,弗兰克·罗森布莱特又在Cornell university Aeronautical laboratory通过硬件实现了第一个感知器模型:Mark I,开辟了人工神经网络的计算机向硬件化发展方向[2]。感知器是一种前向人工神经网络,采用阈值型激活函数,只含一层神经元。通过训练网络权值,对于一组输入响应,感知器可以得到1或0的目标输出,从而实现分类输入响应的目标。但感知器的分类能力非常有限,只能够处理简单的二元线性分类,受限于其只具有一层神经网络,它不能处理线性不可分问题,比如异或问题。
1980年,基于传统的感知器结构,深度学习创始人,加拿大多伦多大学教授杰弗里·辛顿(G. Hinton)采用多个隐含层的深度结构来代替代感知器的单层结构,多层感知器模型(Multi_Layer Perceptron)是其中最具代表性的,而且多层感知器也是最早的深度学习网络模型[3]。1974年,Paul Werbos提出采用反向传播法来训练一般的人工神经网络,随后,该算法进一步被杰弗里·辛顿、燕·勒存(Y. LeCun)等人应用于训练具有深度结构的神经网络[3]。反向传播法根据神经网络输出层的计算误差来调整网络的权值,直到计算误差收敛为止[4]。但是,反向传播法训练具有多隐含层的深度网络的网络参数的学习性能并不好,因为具有多隐含层的深度网络的网络参数的训练问题是一个非凸问题,基于梯度下降的反向传播法很容易在训练网络参数时收敛于局部极小值。此外,反向传播法训练网络参数还存在很多实际问题,比如需要大量的标签样本来训练网络的权值,多隐含层的神经网络权值的训练速度很慢,权值的修正随着反向传播层数的增加逐渐削弱等。
面对采用反向传播法来训练具有多隐含层的深度网络的网络参数时存在的缺陷,一部分研究人员开始探索通过改变感知器的结构来改善网络学习的性能,由此产生了很多著名的单隐含层的浅层学习模型,如SVM、logistic regression、Maximum entropy model和朴素贝叶斯模型等。浅层学习模型能够有效地解决简单或者具有复杂条件限制的问题,但受限于只含一个隐含层,所以浅层学习模型特征构造的能力有限,不能有效处理包含复杂特征的问题[5]。为了同时解决具有多隐含层的深度网络在参数训练时存在的缺陷和浅层网络特征构造能力有限的问题,一些研究人员开始尝试采用新的参数训练方法来训练多隐含层的深度网络。
1984年,日本学者福岛邦彦提出了卷积神经网络的原始模型神经感知机(Neocognitron)[7]。1998年,燕·勒存(Y. LeCun)提出了深度学习常用模型之一卷积神经网络(Convoluted Neural Network, CNN)[3,7]。2006年,杰弗里·辛顿(G. Hinton)提出了深度学习的概念,随后与其团队在文章《A fast Learning Algorithm for Deep Belief Nets》中提出了深度学习模型之一,深度信念网络,并给出了一种高效的半监督算法:逐层贪心算法,来训练深度信念网络的参数,打破了长期以来深度网络难以训练的僵局[5,6]。从此,深度学习的大门打开,在各大政府、高校和企业中掀起了研究深度学习的大浪潮。2009年,Yoshua Bengio提出了深度学习另一常用模型:堆叠自动编码器(Stacked Auto-Encoder,SAE),采用自动编码器来代替深度信念网络的基本单元:限制玻尔兹曼机,来构造深度网络。
约翰·霍普菲尔德(John Hopfield)在1982提出了Hopfield网络,是最早的递归神经网络(Recurrent Neural Network,RNN)。因Hopfield网络实现困难,没有合适的应用场景,86年后逐渐被前向神经网络取代。1990年,出现了Elman&Jordan SRN两种新的RNN网络,同样因为没有合适的应用场景,很快淡出了研究人员视线。Dalle Molle人工智能研究所的主任Jurgen Schmidhuber在论文《THE VANISHING GRADIENT PROBLEM DURING ?recurrent neural networks and problem solutions》提出了LSTM,促进了循环神经网络的发展,特别是在深度学习广泛应用的今天,RNN(LSTM)在自然语言处理领域,如机器翻译、情感分析、智能对话等,取得了令人惊异的成绩。
深度学习自2006年产生之后就受到科研机构、工业界的高度关注。最初,深度学习的应用主要是在图像和语音领域。从2011年开始,谷歌研究院和微软研究院的研究人员先后将深度学习应用到语音识别,使识别错误率下降了20%-30%[4,7]。2012年,杰弗里·辛顿的学生IIya Sutskever和Alex Krizhevsky在图片分类比赛ImageNet中,使用深度学习打败了Google团队,深度学习的应用,使得图片识别错误率下降了14%。2012年6月,谷歌首席架构师Jeff Dean和斯坦福大学教授AndrewNg主导著名的GoogleBrain项目,采用16万个CPU来构建一个深层神经网络,并将其应用于图像和语音的识别,最终大获成功。此外,深度学习在搜索领域也获得广泛关注。如今,深度学习已经在图像、语音、自然语言处理、CTR预估、大数据特征提取等方面获得广泛的应用。
参考文献:
[1]?? 周开利, 康耀红. 神经网络模型及其Matlab仿真[M]. 程序设计. 北京: 清华大学出版社, 2005:43.
[2]?? F. Rosenblatt. Perceptron Simulation Experiments[J]. Proceedings of the Ire, !960, 48(3): 301-309.
[3]?? 孙志军, 薛雷, 许阳明, 王正. 深度学习研究综述[J]. 计算机应用研究, 2012, 29(8):2806-2810.
[4]?? G. Dahl, D. Yu, L. Deng. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012,20(1):30-42.
[5]?? G. E. Hinton, S. Osindero, Y. W Teh. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[6]?? M. Ranzato, Y. Boureau, S. Chopra, and Y. LeCun. A unified energy-based framework for unsupervised learning[J]. Proc. Conference on AI and Statistics (AI-Stats), 2007.
[7]?? 刘建伟, 刘媛, 罗雄麟. 深度学习研究进展[J]. 计算机应用研究, 2014, 31(7):1921-1942.
更多深度学习在NLP方面应用的经典论文、实践经验和最新消息,欢迎关注微信公众号“深度学习与NLP”或“DeepLearning_NLP”或扫描二维码添加关注。