您的位置 首页 芯闻

图像识别中的深度学习【香港中文大学王晓刚】

深度学习是近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。现有的深度学习模型属于神经网络。神经网络的起源可追溯到2

  深度学习是近十年来人工智能范畴获得的重要打破。它在语音辨认、天然语言处理、核算机视觉、图画与视频剖析、多媒体等许多范畴的运用获得了巨大成功。现有的深度学习模型归于神经网络。神经网络的来源可追溯到20世纪40年代,曾经在八九十年代盛行。神经网络企图经过模仿大脑认知的机理处理各种机器学习问题。1986年,鲁梅尔哈特(Rumelhart)、欣顿(Hinton)和威廉姆斯(Williams)在《天然》杂志宣布了闻名的反向传达算法用于练习神经网络[1],该算法直到今日仍被广泛运用。

  神经网络有许多参数,常常发生过拟合问题,尽管其辨认成果在练习集上精确率很高,但在测验集上效果却很差。这是因为其时的练习数据集规划都较小,加之核算资源有限,即便是练习一个较小的网络也需求很长的时刻。与其他模型比较,神经网络并未在辨认精确率上体现出显着的优势。

  因而更多的学者开端选用支撑向量机、Boosting、最近邻等分类器。这些分类器能够用具有一个或两个隐含层的神经网络模仿,因而被称为浅层机器学习模型。在这种模型中,往往是针对不同的使命规划不同的体系,并选用不同的手艺规划的特征。例物体辨认选用标准不变特征转化(Scale Invariant Feature Transform, SIFT),人脸辨认选用部分二值形式(Local Binary Patterns, LBP),行人检测选用方向梯度直方图(Histogram of Oriented Gradient, HOG)特征。

  2006年,欣顿提出了深度学习。之后深度学习在许多范畴获得了巨大成功,遭到广泛重视。神经网络能够从头勃发芳华的原因有几个方面:首要,大规划练习数据的呈现在很大程度上缓解了练习过拟合的问题。例如,ImageNet[2]练习集具有上百万个有标示的图画。其次,核算机硬件的飞速开展为其供给了强壮的核算才干,一个GPU芯片能够集成上千个核。这使得练习大规划神经网络成为或许。第三,神经网络的模型规划和练习办法都获得了长足的前进。例如,为了改善神经网络的练习,学者提出了非监督和逐层的预练习,使得在运用反向传达算法对网络进行大局优化之前,网络参数能到达一个好的起始点,然后在练习完结时能到达一个较好的部分极小点。

  深度学习在核算机视觉范畴最具影响力的打破发生在2012年,欣顿的研讨小组选用深度学习赢得了ImageNet图画分类竞赛的冠军[3]。排名第2到第4位的小组选用的都是传统的核算机视觉办法、手艺规划的特征,他们之间精确率的不同不超越1%。欣顿研讨小组的精确率超出第二名10%以上,(见表1)。这个成果在核算机视觉范畴发生了极大的轰动,引发了深度学习的热潮。

  核算机视觉范畴另一个重要的应战是人脸辨认。有研讨标明[5],假如只把不包括头发在内的人脸的中心区域给人看,人眼在户外脸部检测数据库(Labeled Faces in the Wild, LFW)上的辨认率是97.53%。假如把整张图画,包括布景和头发给人看,人眼的辨认率是99.15%。经典的人脸辨认算法Eigenface[6] 在LFW测验集上只要60%的辨认率。在非深度学习算法中,最高的辨认率是96.33%[7]。现在深度学习能够到达99.47%的辨认率[8]。

  在欣顿的科研小组赢得ImageNet竞赛冠军之后的6个月,谷歌和百度都发布了新的依据图画内容的查找引擎。他们选用深度学习模型,运用在各自的数据上,发现图画查找精确率得到了大幅度进步。百度在2012年景立了深度学习研讨院,2014年5月又在美国硅谷成立了新的深度学习试验室,延聘斯坦福大学闻名教授吴恩达担任首席科学家。脸谱于2013年12月在纽约成立了新的人工智能试验室,延聘深度学习范畴的闻名学者、卷积网络的发明人雅恩·乐昆(Yann LeCun)作为首席科学家。2014年1月,谷歌抛出四亿美金收买了深度学习的创业公司DeepMind。鉴于深度学习在学术界和工业界的巨大影响力,2013年,《麻省理工科技谈论》(MIT Technology Review)将其列为世界十大技能打破之首。

  深度学习有何异乎寻常?

  深度学习和其他机器学习办法比较有哪些要害的不同点,它为何能在许多范畴获得成功?

  特征

  深度学习与传统形式辨认办法的最大不同在于它所选用的特征是从大数据中主动学习得到,而非选用手艺规划。好的特征能够进步形式辨认体系的功用。曩昔几十年,在形式辨认的各种运用中,手艺规划的特征一向处于控制方位。手艺规划首要依托规划者的先验常识,很难运用大数据的优势。因为依靠手艺调参数,因而特征的规划中所答应呈现的参数数量十分有限。深度学习能够从大数据中主动学习特征的标明,能够包括不计其数的参数。

  选用手艺规划出有用的特征往往需求五到十年时刻,而深度学习能够针对新的运用从练习数据中很快学习到新的有用的特征标明。

  一个形式辨认体系包括特征和分类器两部分。在传统办法中,特征和分类器的优化是分隔的。而在神经网络的框架下,特征标明和分类器是联合优化的,能够最大程度地发挥二者联合协作的功用。

  2012年欣顿参与ImageNet竞赛所选用的卷积网络模型[9]的特征标明包括了从上百万样本中学习得到的6000万个参数。从ImageNet上学习得到的特征标明具有十分强的泛化才干,能够成功运用到其他数据集和使命中,例如物体的检测、盯梢和检索等。在核算机视觉范畴别的一个闻名的竞赛是PSACAL VOC。可是它的练习集规划较小,不适合练习深度学习模型。有学者将ImageNet上学习得到的特征标明用于PSACAL VOC上的物体检测,检测率进步了20%[10]。

  已然特征学习如此重要,那么,什么是好的特征呢?一幅图画中,各种杂乱的要素往往以非线性的办法结合在一起。例如人脸图画中就包括了身份、姿势、年纪、表情、光线等各种信息。深度学习的要害便是经过多层非线性映射将这些要素成功分隔,例如在深度模型的终究一个隐含层,不同神经元代表了不同要素。假如将这个隐含层当作特征标明,人脸辨认、姿势估量、表情辨认、年纪估量就会变得十分简略,因为各个要素之间变成了简略的线性联络,不再互相搅扰。

  深层结构的优势

  深度学习模型的“深”字意味着神经网络的结构深,由许多层组成。而支撑向量机和Boosting等其他常用的机器学习模型都是浅层结构。三层神经网络模型(包括输入层、输出层和一个隐含层)能够近似任何分类函数。已然如此,为什么需求深层模型呢?

  研讨标明,针对特定的使命,假如模型的深度不行,其所需求的核算单元会呈指数添加。这意味着尽管浅层模型能够表达相同的分类函数,但其需求的参数和练习样本要多得多。浅层模型供给的是部分表达。它将高维图画空间分红若干个部分区域,每个部分区域至少存储一个从练习数据中获得的模板,如图1(a)所示。浅层模型将一个测验样本和这些模板逐个匹配,依据匹配的成果猜测其类别。例如,在支撑向量机模型中,模板是支撑向量;在最近邻分类器中,模板是一切的练习样本。跟着分类问题杂乱度的添加,需求将图画空间区别红越来越多的部分区域,因而需求越来越多的参数和练习样本。尽管现在许多深度模型的参数量现已适当巨大,但假如换成浅层神经网络,其所需求的参数量要大出多个数量级才干到达相同的数据拟合效果,以至于很难完结。

  深度模型之所以能削减参数的要害在于重复运用中间层的核算单元。以人脸辨以为例,深度学习能够针对人脸图画的分层特征表达进行:最底层从原始像素开端学习滤波器,描写部分的边际和纹路特征;中层滤波器经过将各种边际滤波器进行组合,描绘不同类型的人脸器官;最高层描绘的是整个人脸的大局特征。

  深度学习供给的是散布式的特征标明。在最高的隐含层,每个神经元代表一个特点分类器(如图1(b)所示),例如性别、人种和头发色彩等。每个神经元将图画空间一分为二,N个神经元的组合就能够表达2N个部分区域,而用浅层模型表达这些区域的区别至少需求2N个模板。由此能够看出,深度模型的表达才干更强,功率更高。

  提取大局特征和上下文信息的才干

  深度模型具有强壮的学习才干和高效的特征表达才干,更重要的长处是从像素级原始数据到笼统的语义概念逐层提取信息,这使得它在提取图画的大局特征和上下文信息方面具有杰出的优势,为处理传统的核算机视觉问题(如图画切割和要害点检测)带来了新的思路。

  以人脸的图画切割为例(如图2所示),为了猜测每个像素归于哪个脸部器官(眼睛、鼻子、嘴),一般的做法是在该像素周围取一个小区域,提取纹路特征(例如部分二值形式),再依据该特征运用支撑向量机等浅层模型分类。因为部分区域包括的信息量有限,往往发生分类过错,因而要对切割后的图画参加滑润和形状先验等束缚。

  人眼即便在存在部分遮挡的状况下也能够依据脸部其他区域的信息估量被遮挡部分的标示。由此可知大局和上下文信息关于部分的判别是十分重要的,而这些信息在依据部分特征的办法中在最开端阶段就丢掉了。抱负状况下,模型应该将整幅图画作为输入,直接猜测整幅切割图。图画切割能够被看做一个高维数据转化的问题来处理。这样不光运用到了上下文信息,模型在高维数据转化进程中也隐式地参加了形状先验。可是因为整幅图画内容过于杂乱,浅层模型很难有用地捕捉大局特征。而深度学习的呈现使这一思路成为或许,在人脸切割[11]、人体切割[12]、人脸图画配准[13]和人体姿势估量等各个方面都获得了成功[14]。

  联合深度学习

  一些研讨核算机视觉的学者将深度学习模型视为黑盒子,这种观点是不全面的。传统核算机视觉体系和深度学习模型存在着亲近的联络,运用这种联络能够提出新的深度模型和练习办法。用于行人检测的联合深度学习[15]便是一个成功的比如。一个核算机视觉体系包括若干个要害的组成模块。例如,一个行人检测器包括特征提取、部件检测器、部件几许形变建模、部件遮挡推理、分类器等模块。在联合深度学习中[15],深度模型的各个层和视觉体系的各个模块能够树立对应联络。假如视觉体系中的要害模块在现有深度学习的模型中没有与之对应的层,则它们能够启示咱们提出新的深度模型。例如,许多物体检测的研讨作业标明,对物体部件的几许形变建模能够有用进步检测率,可是在常用的深度模型中没有与之相对应的层,因而联合深度学习[15]及其后续的作业[16]都提出了新的形变层和形变池化层来完结这一功用。

  从练习办法上看,核算机视觉体系的各个模块是逐个练习或手艺规划的。在深度模型的预练习阶段,各个层也是逐个练习的。假如咱们能够树立核算机视觉体系和深度模型之间的对应联络,那么在视觉研讨中堆集的经历就能够对深度模型的预练习供给辅导。这样预练习后得到的模型就能够到达与传统核算机视觉体系可比的成果。在此基础上,深度学习还会运用反向传达对一切层进行联合优化,使它们之间的相互协作到达最优,然后使整个网络的功用得到严重进步。

  深度学习在物体辨认中的运用

  ImageNet图画分类

  深度学习在物体辨认中最重要的开展体现在ImageNet ILSVRC应战中的图画分类使命。传统核算机视觉办法在此测验集上最低的过错率是26.172%。2012年,欣顿的研讨小组运用卷积网络把过错率降到了15.315%。此网络结构被称为Alex Net[3],与传统的卷积网络比较,它有三点异乎寻常之处:首要,Alex Net选用了dropout的练习战略,在练习进程中将输入层和中间层的一些神经元随机置零。这模仿了噪音对输入数据的各种搅扰使一些神经元对一些视觉形式发生漏检的状况。Dropout使练习进程收敛得更慢,但得到的网络模型愈加鲁棒。其次,Alex Net选用整流线型单元作为非线性的激起函数。这不只大大降低了核算的杂乱度,并且使神经元的输出具有稀少的特征,对各种搅扰愈加鲁棒。第三,Alex Net经过对练习样本镜像映射和参加随机平移扰动,发生了更多的练习样本,削减了过拟合。

  在ImageNet ILSVRC 2013竞赛中,排名前20的小组运用的都是深度学习技能。获胜者是纽约大学罗伯·费格斯(Rob Fergus)的研讨小组,所选用的深度模型是卷积网络,并对网络结构作了进一步优化,过错率为11.197%,其模型称作Clarifai[17]。

  在ILSVRC 2014竞赛中,获胜者GooLeNet[18]将过错率降到了6.656%。GooLeNet杰出的特点是大大添加了卷积网络的深度,超越了20层,这在此之前是不行幻想的。很深的网络结构给猜测差错的反向传达带了困难,这是因为猜测差错是从最顶层传到底层的,传到底层的差错很小,难以驱动底层参数的更新。GooLeNet采纳的战略是将监督信号直接加到多个中间层,这意味着中间层和底层的特征标明也要能够对练习数据进行精确分类。怎么有用地练习很深的网络模型仍是未来研讨的一个重要课题。

  尽管深度学习在ImageNet上获得了巨大成功,可是许多运用的练习集是较小的,在这种状况下,怎么运用深度学习呢?有三种办法可供参考:(1)能够将ImageNet上练习得到的模型作为起点,运用方针练习集和反向传达对其进行持续练习,将模型适应到特定的运用[10]。此刻ImageNet起到预练习的效果。(2)假如方针练习集不行大 ,能够将底层的网络参数固定,沿袭ImageNet上的练习集成果,只对上层进行更新。这是因为底层的网络参数是最难更新的,而从ImageNet学习得到的底层滤波器往往描绘了各种不同的部分边际和纹路信息,而这些滤波器对一般的图画有较好的普适性。(3)直接选用ImageNet上练习得到的模型,把最高的隐含层的输出作为特征表达,替代常用的手艺规划的特征[19, 20]。

  人脸辨认

  深度学习在物体辨认上的另一个重要打破是人脸辨认。人脸辨认的最大应战是怎么区别因为光线、姿势和表情等要素引起的类内改变和因为身份不同发生的类间改变。这两种改变的散布对错线性的,且极为杂乱,传统的线性模型无法将它们有用区别隔。深度学习的意图是经过多层的非线性改换得到新的特征标明。这些新特征须尽或许多地去掉类内改变,而保存类间改变。

  人脸辨认包括人脸承认和人脸辨识两种使命。人脸承认是判别两张人脸相片是否归于同一个人,归于二分类问题,随机猜的正确率是50%。人脸辨识是将一张人脸图画分为N个类别之一,类别是由人脸的身份界说的。这是个多分类问题,更具应战性,其难度跟着类别数的增多而增大,随机猜的正确率是1/N。两种使命都能够经过深度模型学习人脸的特征表达。

  2013年,文献[21]选用人脸承认使命作为监督信号,运用卷积网络学习人脸特征,在LFW上获得了92.52%的辨认率。这一成果尽管与后续的深度学习办法比较较低,但也超越了大多数非深度学习算法。因为人脸承认是一个二分类问题,用它学习人脸特征的功率比较低,简略在练习集上发生过拟合。而人脸辨识是一个更具应战性的多分类问题,不简略发生过拟合,更适合经过深度模型学习人脸特征。另一方面,在人脸承认中,每一对练习样本被人工标示成两类中的一类,所含信息量较少。而在人脸辨识中,每个练习样本都被人工标示成N类之一,信息量大。

  在2014年的IEEE世界核算机视觉与形式辨认会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)上,DeepID[22]和DeepFace[23] 都选用人脸辨识作为监督信号,在LFW上别离获得了97.45%和97.35%的辨认率(见表2)。他们运用卷积网络猜测N维标示向量,将最高的隐含层作为人脸特征。这一层在练习进程中要区别许多的人脸类别(例如在DeepID中区别1000个类别的人脸),因而包括了丰厚的类间改变的信息,有很强的泛化才干。尽管练习中选用的是人脸辨识使命,但得到的特征能够运用到人脸承认使命中,以及辨认练习会集是否有新人。例如,LFW上用于测验的使命是人脸承认使命,不同于练习中的人脸辨识使命;DeepID[21]和DeepFace[22]的练习集与LFW测验集的人物身份是不重合的。

  经过人脸辨识使命学习得到的人脸特征包括较多的类内改变。DeepID2[24]联合运用人脸承认和人脸辨识作为监督信号,得到的人脸特征在坚持类间改变的一起使类内改变最小化,然后将LFW上的人脸辨认率进步到99.15%。DeepID2运用Titan GPU提取一幅人脸图画的特征只需求35毫秒,并且能够离线进行。经过主元剖析(Principal Component Analysis, PCA)紧缩终究得到80维的特征向量,能够用于快速人脸在线比对。在后续作业中,DeepID2[8]经过扩展网络结构,添加练习数据,以及在每一层都参加监督信息,在LFW到达了99.47%的辨认率。

  一些人以为深度学习的成功是因为用具有许多参数的杂乱模型去拟合数据集,其实远非如此简略。例如DeepID2+的成功还在于其所具有的许多重要风趣的特征[8]:它最上层的神经元响应是中度稀少的,对人脸身份和各种人脸特点具有很强的选择性,对部分遮挡有很强的鲁棒性。在以往的研讨中,为了得到这些特点,咱们往往需求对模型参加各种显现的束缚。而DeepID2+经过大规划学习主动具有了这些特点,其背面的理论剖析值得未来进一步研讨。

  深度学习在物体检测中的运用

  物体检测是比物体辨认更难的使命。一幅图画中或许包括归于不同类别的多个物体,物体检测需求确认每个物体的方位和类别。2013年,ImageNet ILSVRC竞赛的组织者添加了物体检测的使命,要求在4万张互联网图片中检测200类物体。竞赛获胜者运用的是手动规划的特征,均匀物体检测率(mean Averaged Precision, mAP)只要22.581%。在ILSVRC 2014中,深度学习将均匀物体检测率进步到了43.933%。较有影响力的作业包括 RCNN[10]、Overfeat[25]、GoogLeNet[18]、DeepID-Net[16]、network in network[26]、VGG[27]和spatial pyramid pooling in deep CNN[28]。RCNN[10]初次提出了被广泛选用的依据深度学习的物体检测流程,并首要选用非深度学习办法(例如selective search[29])提出候选区域,运用深度卷积网络从候选区域提取特征,然后运用支撑向量机等线性分类器依据特征将区域分为物体和布景。DeepID-Net[16]进一步完善了这一流程,使得检测率有了大幅进步,并且对每一个环节的奉献做了具体的试验剖析。深度卷积网络结构的规划也至关重要,假如一个网络结构能够进步图画分类使命的精确性,一般也能明显进步物体检测器的功用。

  深度学习的成功还体现在行人检测上。在最大的行人检测测验集(Caltech[30])上,广泛选用的方向梯度直方图(Histogram of Oriented Gradient, HOG)特征和可变形部件模型[31]的均匀误检率是68%。现在依据深度学习检测的最好成果是20.86%[32]。在最新的研讨开展中,许多被证明行之有用的物体检测都用到了深度学习。例如,联合深度学习[15]提出了形变层,对物体部件间的几许形变进行建模;多阶段深度学习[33]能够模仿物体检测中常用的级联分类器;可切换深度网络[34]能够表达物体各个部件的混合模型;文献[35]经过搬迁学习将一个深度模型行人检测器自适应到一个方针场景。

  深度学习用于视频剖析

  深度学习在视频分类上的运用还处于起步阶段,未来还有许多作业要做。描绘视频的静态图画特征能够选用从ImageNet上学习得到的深度模型,难点是怎么描绘动态特征。以往的视觉研讨办法对动态特征的描绘往往依靠于光流估量、对要害点的盯梢和动态纹路。怎么将这些信息体现在深度模型中是个难点。最直接的做法是将视频视为三维图画,直接运用卷积网络[36]在每一层学习三维滤波器。可是这一思路明显没有考虑到时刻维和空间维的差异性。别的一种简略但愈加有用的思路是,经过预处理核算光流场或其他动态特征的空间场散布,作为卷积网络的一个输入通道[37~39]。也有研讨作业运用深度编码器(deep autoencoder)以非线性的办法提取动态纹路[38]。在最新的研讨作业中[41],长短时记忆网络(Long Short-Term Memory, LSTM)遭到广泛重视,它能够捕捉长时间依靠性,对视频中杂乱的动态建模。

  未来开展的展望

  深度学习在图画辨认中的运用方兴未已,未来有着巨大的开展空间。

  在物体辨认和物体检测研讨的一个趋势是运用更大更深的网络结构。在ILSVRC 2012中,Alex Net只包括了5个卷积层和两个全衔接层。而在ILSVRC2014中, GooLeNet和 VGG 运用的网络结构都超越了20层。更深的网络结构使得反向传达愈加困难。与此一起,练习数据的规划也在敏捷变大。这迫切需求研讨新的算法和开发新的并行核算体系来愈加有用地运用大数据练习更大更深的模型。

  与图画辨认比较,深度学习在视频分类中的运用还远未老练。从ImageNet 练习得到的图画特征能够直接有用地运用到各种与图画相关的辨认使命(例如图画分类、图画检索、物体检测和图画切割等)和其他不同的图画测验会集,具有杰出的泛化功用。可是深度学习至今还没有得到相似的可用于视频剖析的特征。要到达这个意图,不光要树立大规划的练习数据集(文献[42]最新树立了包括100万个YouTube视频的数据库),还需求研讨适用于视频剖析的新的深度模型。练习用于视频剖析的深度模型的核算量也会大大添加。

  在与图画和视频相关的运用中,深度模型的输出猜测(例如切割图或物体检测框)往往具有空间和时刻上的相关性。因而研讨具有结构性输出的深度模型也是一个要点。

  尽管神经网络的意图在于处理一般意义上的机器学习问题,但范畴常识对深度模型的规划也起着重要的效果。在与图画和视频相关的运用中,最成功的是深度卷积网络,其规划正是运用了图画的特别结构。其间最重要的两个操作——卷积和池化都来自与图画相关的范畴常识。怎么经过研讨范畴常识,在深度模型中引进新的有用的操作和层,关于进步图画和视频辨认的功用有着重要意义。例如,池化层带来了部分的平移不变性,文献[16]中提出的形变池化层在此基础上更好地描绘了物体各个部分的几许形变。在未来研讨中,能够将其进一步扩展,然后获得旋转不变性、标准不变性和对遮挡的鲁棒性。

  经过研讨深度模型和传统核算机视觉体系之间的联络,不光能够协助咱们了解深度学习成功的原因,还能够启示新的模型和练习办法。联合深度学习[15]和多阶段深度学习[33]未来还有更多的作业要做。

  尽管深度学习在实践中获得了巨大成功,并且经过大数据练习得到的深度模型体现出的特性(例如稀少性、选择性和对遮挡的鲁棒性[8])有目共睹,但其背面的理论剖析还有许多作业需求完结。例如,何时收敛?怎么获得较好的部分极小点?每一层改换获得了哪些对辨认有利的不变性,又丢失了哪些信息?最近马拉特(Mallat)运用小波对深层网络结构进行了量化剖析[43],这是在此方向上的重要探究。

  结语

  深度模型并非黑盒子,它与传统的核算机视觉体系有着亲近的联络,神经网络的各个层经过联合学习、全体优化,使得功用得到大幅进步。与图画辨认相关的各种运用也在推进深度学习在网络结构、层的规划和练习办法各个方面的快速开展。能够预见在未来数年内,深度学习将会在理论、算法和运用各方面进入高速开展时期。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/news/xinwen/114905.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部