深度神经网络在许多使命上都已取得了比美甚至逾越人类的体现,但其泛化才干仍远不及人类。德国蒂宾根大学等多所组织近期的一篇论文对人类和 DNN 的方针辨认稳健性进行了行为比较,并得到了一些风趣的见地。机器之心对该论文进行了编译介绍。
摘要
咱们经过 12 种不同类型的图画劣化(image degradation)办法,比较了人类与当时的卷积式深度神经网络(DNN)在方针辨认上的稳健性。首要,比照三种闻名的 DNN(ResNet-152、VGG-19、GoogLeNet),咱们发现不论对图画进行怎样的操作,简直一切状况下人类视觉体系都更为稳健。咱们还观察到,当信号越来越弱时,人类和 DNN 之间的分类差错办法之间的差异会逐步增大。其次,咱们的研讨标明直接在畸变图画上练习的 DNN 在其所练习的同种畸变类型上的体现总是优于人类,但在其它畸变类型上测验时,DNN 却体现出了十分差的泛化才干。比方,在椒盐噪声上练习的模型并不能稳健地应对均匀白噪声,反之亦然。因而,练习和测验之间噪声散布的改动是深度学习视觉体系所面对的一大要害难题,这一难题可经过终身机器学习办法而体系地处理。咱们的新数据集包含 8.3 万个精心衡量的人类心理物理学实验,能依据人类视觉体系设置的图画劣化供给对终身稳健性的有用参看。
图 1:在(有或许畸变的)ImageNet 图画上从头开端练习的 ResNet-50 的分类体现。(a)在规范的五颜六色图画上练习后的模型在五颜六色图画上的测验体现挨近完美(优于人类观察者)。(b)相似地,在增加了均匀噪声的图画上练习和测验的模型也优于人类。(c)明显的泛化问题:在增加了椒盐噪声的图画上练习的模型在具有均匀噪声的图画上进行测验时,体现时好时坏——即便这两种噪声类型在人眼看来并没有太大的差异。
1 导言
1.1 作为人类方针辨认模型的深度神经网络
人类在日常日子中进行的视觉辨认速度很快,好像也毫不费力,并且很大程度无关视角和物体的方向 [Biederman (1987)]。在单次凝视进程中完结的首要由中心凹进行的快速辨认被称为「中心方针辨认(core object recognition)」[DiCarlo et al. (2012)]。比方,在检查「规范的」图画时,咱们可以在不到 200 毫秒的单次凝视内可靠地辨别出视界中心的方针。[DiCarlo et al. (2012); Potter (1976); Thorpe et al. (1996)]。由于方针辨认速度很快,所以研讨者常认为中心方针辨认首要是经过前馈处理完成的,虽然反应连接在灵长类大脑中无处不在。灵长类大脑中的方针辨认据信是经过腹侧视觉通路完成的,这是一个由区域 V1-V2-V4-IT 组成的分层结构,来自视网膜的信息会首要传递至 V1 的皮层 [Goodale and Milner (1992)]。
就在几年前,动物视觉体系仍是已知的仅有可以进行品种广泛的视觉方针辨认的视觉体系。但这种状况已然改动,在数百万张有标示图画上练习之后的脑启发式深度神经网络现已在天然场景图画中的物体分类上到达了人类水平 [Krizhevsky et al. (2012)]。DNN 现在可用于各品种型的使命,并且发明了新的当时最佳,甚至在一些几年前还被认为需求数十年时刻才干经过算法处理的使命上取得了逾越人类的体现 [He et al. (2015); Silver et al. (2016)]。由于 DNN 和人类能到达附近的准确度,所以已有一些作业开端研讨 DNN 和人类视觉的相似和不同之处。一方面,由于大脑自身的杂乱性和神经元的多样性,所以 DNN 的网络单元得到了很大的简化 [Douglas and Martin (1991)]。另一方面,一个模型的才干往往并不取决于对原有体系的复现,而在于模型取得原体系的重要方面并将其从完成的细节中笼统出来的才干 [如 Box (1976); Kriegeskorte (2015)]。
人类视觉体系最明显的性质之一是稳健的泛化才干。即便输入散布产生很大的改动(比方不同的光照条件和气候类型),人类视觉体系也能轻松应对。比方,即便在一个物体前面有雨滴或雪花,人类对物体的辨认也根本不会犯错。虽然人类在一生中必定会遇到许多这样的改动状况(关于 DNN,便是咱们所说的「练习时刻」),但好像人类的泛化办法十分普适,并不局限于之前看过的同种散布。不然咱们将无法了解存在某些全新之处的场景,之前未见过的噪声也会让咱们束手无策。即便一个人的头上还从未被撒过彩片碎纸,但他依然可以毫无压力地辨认出花车巡游中的方针。很天然,这样通用稳健的机制并不只仅动物视觉体系所需的,要让人工视觉体系具有超出其练习时刻所用散布的「视野」,然后处理各式各样的视觉使命,也将需求相似的机制。用于自动驾驶的深度学习或许便是其间一个杰出事例:即便体系在练习时刻从没见过彩片碎纸雨,在花车巡游时也需求有稳健的分类体现。因而,从机器学习视点看,由于终身机器学习所需的泛化才干并不依赖于在测验时刻运用独立同散布(i.i.d.)样本的规范假定,所以对一般噪声的稳健性可用作终身机器学习的高度相关的事例 [Chen and Liu (2016)]。
1.2 泛化才干比较
DNN 的泛化作用一般很好:首要,DNN 可以在练习散布上学习到满足一般的特征,能在独立同散布的测验散布上得到很高的准确度;虽然 DNN 也有满足的才干彻底回忆练习数据 [Zhang et al. (2016)],。有许多研讨致力于了解这一现象 [如 Kawaguchi et al. (2017); Neyshabur et al. (2017); Shwartz-Ziv and Tishby (2017)]。其次,在一个使命上学习到特征往往只会搬迁到有所相关的使命上,比方从分类使命搬迁到明显性猜测使命 [Kümmerer et al. (2016)]、心情辨认使命 [Ng et al. (2015)]、医学成像使命 [Greenspan et al. (2016)] 以及其它许多搬迁学习使命 [Donahue et al. (2014)]。可是,在用于新使命之前,搬迁学习依然需求许多练习。这儿,咱们选用第三种设定:终身机器学习视点的泛化 [Thrun (1996)]。即当一个视觉学习体系在学习过处理一种特定类型的图画劣化后,在处理新类型的图画劣化时作用怎么?作为一种方针辨认稳健性的衡量办法,咱们可以测验分类器或视觉体系可以忍耐输入散布的改动到达必定程度的才干,即在必定程度上不同于练习散布的测验散布上评价时的辨认体现是否够好(即在挨近真实的状况下测验,而非在独立同散布上测验)。运用这种办法,咱们可以衡量 DNN 和人类观察者应对由参数化图画处理所形成的原始图画逐步畸变的才干。
首要,咱们将评价在 ImageNet 上练习的体现最好的 DNN,即 GoogLeNet [Szegedy et al. (2015)]、 VGG-19 [Simonyan and Zisserman (2015)] 和 ResNet-152 [He et al. (2016)],并会在 12 种不同的图画畸变上比较这些 DNN 与人类的体现,看各安闲之前未见过的畸变上的泛化才干怎么。图 2 展现了这些畸变类型,包含加性噪声或相位噪声等。
在第二组实验中,咱们会直接在畸变图画上练习网络,看它们在一般意义上处理有噪声输入的作用终究怎么,以及在畸变图画上进行多少练习就能以数据增强的办法助力对其它畸变办法的处理。研讨者已对人类在方针辨认使命上的行为进行了许多心理物理学研讨,这些使命包含在不同色彩(灰度和五颜六色)或比照度以及增加了不同量的可见噪声的图画上丈量准确度。研讨标明,这种办法的确有助于对人类视觉体系的探究,能提醒出有关其间内部核算和机制的信息 [Nachmias and Sansbury (1974); Pelli and Farell (1999); Wichmann (1999); Henning et al. (2002); Carandini and Heeger (2012); Carandini et al. (1997); Delorme et al. (2000)]。因而,相似的实验或许相同能让咱们了解 DNN 的作业办法,尤其是还能经过与人类行为的高质量丈量成果来进行比较。
特别需求指出,咱们实验中的人类数据是从受控的实验环境中取得的(而没有运用 Amazon Mechanical Turk 等服务,由于这些服务无法让咱们充分地操控展现时刻、显现器校准、视角和参加者在实验中的留意力)。咱们精心丈量得到的行为数据集共包含 12 个实验的 82880 次心理物理学实验,这些数据以及相关资料和代码都已揭露:https://github.com/rgeirhos/generalisation-humans-DNNs
2 办法
这一节将陈述所用的范式、流程、图画处理办法、观察者和 DNN 的中心元素;这儿的信息足以让读者了解相关实验和成果。更深化的解读请参看弥补资料,其间有更详细的细节,可协助研讨者重现咱们的实验。
2.1 范式、流程和 16-class-ImageNet
为了本研讨,咱们开发了一种实验范式,旨在运用一种强制挑选的图画分类使命来尽或许公正地比较人类观察者和 DNN。完成公正的心理物理学比较面对着一些难题:首要,许多体现优秀的 DNN 是在 ILSRVR 2012 数据库 [Russakovsky et al. (2015)] 上练习的,这个数据库有 1000 种细粒度的类别(比方,逾越 100 种狗)。假如让人类说出这些方针的称号,他们根本上很天然地会运用大类的称号(比方会说这是「狗」,而不是说是「德国牧羊犬」)。因而,咱们运用 WordNet 的层次结构 [Miller (1995)] 开发了一种映射办法,将 16 种大类类别(比方狗、车或椅子)映射到了它们对应的 ImageNet 类别。咱们将这个数据集称为 16-class-ImageNet,由于它将 ImageNet 的一个子集分组成了 16 个大类,即:飞机、两轮车、船只、小车、椅子、狗、键盘、烤箱、熊、鸟、瓶子、猫、挂钟、象、刀具、货车)。然后,在每次实验中都会有一张图画显现在核算机屏幕上,观察者有必要经过点击这 16 个类别中的 1 个来选出正确的类别。关于预练习的 DNN,则是核算映射到特定大类的一切 softmax 值的总和。然后,具有最高总和的大类被用作该网络的终究决议。
另一个难题是实践上规范的 DNN 在推理时刻仅会运用前馈式核算,而循环连接在人脑中无处不在 [Lamme et al. (1998); Sporns and Zwi (2004)]。为了避免这种差异在咱们的实验比较中成为混杂成果的首要原因,给人类观察者的呈现时刻被约束在了 200ms。在展现完一张图画之后,还会呈现 200ms 的 1/f 噪声掩模——在心理物理学上,已知这种办法可以尽或许地最小化大脑中的反应影响。
2.2 观察者和预练习的深度神经网络
来自人类观察者的数据与三个预练习的 DNN 的分类体现进行了比较,即 GoogLeNet、 VGG-19 和 ResNet-152。关于咱们进行的 12 个实验中的每一个,都有 5 或 6 个观察者参加(只要五颜六色图画的实验在外,该实验仅有三位观察者参加,由于已有许多研讨履行过相似的实验 [Delorme et al. (2000); Kubilius et al. (2016); Wichmann et al. (2006)]。观察者的视力或矫正后视力处于正常水平。
2.3 图画处理办法
咱们在一个操控杰出的心理物理学实验室环境中进行了一共 12 个实验。在每个实验中,都会在许多图画上施加(或许是参数化的)图画畸变,这样信号强度的规划就从「没有畸变/全信号」到「有畸变/(更)弱信号」不等。然后咱们丈量了分类准确度随信号强度的改动状况。咱们运用的图画处理办法中有三种是二分式的(五颜六色与灰度、真色与反色、原始与均衡化的功率谱);一种处理办法有 4 个不同层级(旋转 0、90、180、270 度);还有一种办法有 7 个层级(0、30……180 度的相位噪声);其它畸变办规律各有 8 个不同层级。这些办法为:均匀噪声(受标明像素层面加性均匀噪声的鸿沟的「width」参数操控)、比照度下降(比照度从 100% 到 1% 不等)以及三种来自 Eidolon 工具箱的三种不同的处理办法 [Koenderink et al. (2017)]。这三个 Eidolon 实验都对应于一种参数化图画处理的不同版别,「reach」参数操控了畸变的强度。此外,关于在畸变上练习的实验,咱们也评价了在具有椒盐噪声的影响上的体现(受参数 p 操控,该参数标明将一个像素设置成黑或白色的概率;p∈[0,10,20,35,50,65,80,95]%)。
更多有关不同图画处理办法的信息请参看弥补资料,其间也包含各种不同处理办法和畸变等级的图例。图 2 则展现了每种畸变的一个图例。整体而言,咱们挑选运用的图画处理办法可以代表许多不同类型的或许畸变。
图 2:一张鸟图画在经过一切类型的畸变处理后的成果。从左至右的图画处理办法依次为:(上面一行):五颜六色原图(未畸变)、灰度、低比照度、高通、低通(含糊)、相位噪声、功率均衡;(下面一行):反色、旋转、Eidolon I、Eidolon II、Eidolon III、加性均匀噪声、椒盐噪声。弥补资料中供给了所用到的一切畸变等级。
2.4 在畸变图画上练习
除了在畸变图画上评价规范的预练习的 DNN(成果见图 3),咱们还直接在畸变图画上练习了神经网络(图 4)。这些网络是在 16-class-ImageNet 上练习的,这是规范 ImageNet 数据集的一个子集,详见 2.1 节。这将未受扰动的练习集规划减小到了大约本来的五分之一。为了校对每个类别的高度不平衡的样本数量,咱们运用了一个与对应类别的样本数量成正比的权重给丢失函数中的每个样本加权。这些实验中练习的一切网络都运用了相似 ResNet 的架构,与规范 ResNet-50 的不同之处仅有输出神经元的数量——从 1000 降至了 16,以对应数据集的 16 个大类。权重运用了一个切断的正态散布进行初始化,均值为零,规范差为,其间 n 是一层中输出神经元的数量。
在从头开端练习时,咱们运用图画处理办法的不同组合在练习进程中履行了数据增强。当在多品种型的图画处理上练习网络时(图 4 中的 B1-B9 和 C1-C2 模型),图画处理的类型(包含未畸变图画,即规范的五颜六色图画)是均匀选取的,并且咱们每次仅运用一种处理(即网络永久不会看到一起运用了多种图画处理办法的单张图画,但留意某些图画处理办法本质上现已包含了其它处理办法:比方均匀噪声,总是在进行灰度转化并将比照度降至 30% 后增加的)。关于一个给定的图画处理办法,扰动量是依据测验时刻所用的等级均匀选取的(拜见图 3)。
练习进程的其它方面都遵从在 ImageNet 上练习 ResNet 的规范练习流程:咱们运用了动量为 0.997 的 SGD,批巨细为 64,初始学习率为 0.025。在 30、60、80 和 90 epoch 后(当练习 100 epoch 时)或 60、120、160、180 epoch 后(当练习 200 epoch 时),学习率乘以 0.1。咱们运用了 TensorFlow 1.6.0 [Abadi et al. (2016)] 进行练习。在练习实验中,除了 Eidolon 影响(由于这些影响的生成对 ImageNet 练习而言的核算速度真实太慢)之外,一切的图画处理办法都有逾越两个层级。为了进行比较,咱们额定增加了五颜六色与灰度和椒盐噪声的比照(由于椒盐噪声方面没有人类的数据,但均匀噪声和椒盐噪声之间不正式的比较阐明人类的体现是附近的,拜见图 1(c))。
3 人类和预练习后的 DNN 对图画畸变的泛化才干
为了评价信号更弱时的泛化才干,咱们测验了 12 种不同的图画劣化办法。然后将这些不同信号强度的图画呈现给实验室环境中的人类观察者以及预练习的 DNN(ResNet-152、GoogLeNet 和 VGG-19)进行分类。图 3 给出了可视化的成果比较。
图 3:GoogLeNet、VGG-19 和 ResNet-152 以及人类观察者的分类准确度和呼应散布熵。「熵」是指呼应/决议散布(16 类)的香农熵。这儿衡量了与特定类别的差错:运用一个在每个类别的图画数量方面平衡的测验数据集,对一切 16 个类别进行平等频率的呼应能得到 4 bit 的最大或许熵。假如网络或观察者更偏心呼应其间某些类别,则熵会下降(假如是一向呼应单个类别的极点状况,则会降至 0 bit,不论根本真值的类别怎么)。人类体现的「差错线」标明了一切参加者的成果的整个区间。2.3 节将解说图画处理办法,可视化成果请参看弥补资料。
虽然在仅有相对较小的与色彩相关的畸变时(比方灰度转化或反色)人类和 DNN 的功能挨近,但咱们发现人类观察者对其它一切畸变都更稳健:在低比照度、功率均衡和相位噪声图画上有少量优势,在均匀噪声、低通、高通、旋转和三种 Eidolon 实验上优势更大。此外,由呼应散布熵衡量的差错办法存在很大的差异(这标明存在对特定类别的差错)。当信号越来越弱时,人类参加者的呼应在 16 个类别上或多或少是平等散布的,而三个 DNN 都体现出了对特定类别的差错。这些差错并不能彻底经过先验类别概率解说,并且因详细畸变而各不相同。比方,关于有很强均匀噪声的图画,ResNet-152 简直只能猜测瓶子类别(与根本真值类别无关),而关于有严峻相位噪声的图画则只能猜测狗或鸟类别。人们或许会想到一些下降 DNN 和人类的呼应散布熵之间的差异的简略技巧。一种或许的办法是增大 softmax 温度参数并假定模型的决议是从这个 softmax 散布采样的,而不是取自 argmax。可是,以这种办法增大呼应 DNN 散布熵会极大下降分类准确度,因而需求必定的权衡(拜见弥补资料图 8)。
这些成果与之前陈述的 DNN 中对色彩信息的处理与人类相似的发现共同 [Flachot and Gegenfurtner (2018)],但 DNN 辨认的准确度会因噪声和含糊等图画劣化而明显下降 [Vasiljevic et al. (2016); Dodge and Karam (2016, 2017a, 2017b); Zhou et al. (2017)]。整体而言,在各种图画畸变状况下,DNN 在泛化到更弱信号上的体现比人类更差。虽然人类的视觉体系随进化进程和生命周期现已遇到了许多畸变,但咱们明显没遇到过咱们的测验中许多切当的图画处理办法。因而,咱们的人类数据标明原则上高水平的泛化才干是或许的。咱们发现,人类与 DNN 的泛化才干差异的或许原因有许多:在当时所运用的网络架构方面是否存在局限性(正如 Dodge and Karam (2016) 假定的那样),使得 DNN 无法对抗人脑中扑朔迷离的核算?练习数据是否存在问题(Zhou et al. (2017) 就这样认为)?仍是说当今的练习办法/优化办法缺乏以完成稳健和通用的方针辨认?为了了解咱们发现的差异之处,咱们进行了另一批实验——直接在畸变图画上练习网络。
4 直接在畸变图画上练习 DNN
图 4:运用或许畸变的数据练习的网络的分类准确度(百分数)。行标明中等难度的不同测验条件(括号中给出了详细条件,单位同图 3)。列对应按不同办法练习的网络(最左列:用于比较的人类观察者;没有人类在椒盐噪声方面的数据)。一切的网络都是在(或许处理过的)16-class-ImageNet 上从头开端练习得到的。红框标记了对应网络的练习数据中运用的处理办法;此外,加上了下划线的成果标明「灰度」是练习数据的一部分,由于某些畸变办法包含了彻底比照度的灰度图画。模型 A1-A9:在单一畸变上练习的 ResNet-50(100 epoch)。模型 B1-B9:在均匀噪声和另一种畸变上练习的 ResNet-50(200 epoch)。模型 C1 和 C2:在除一种畸变外的一切畸变上练习的 ResNet-50(200 epoch)。随机选中的几率是十六分之一,即 6.25%。
咱们为每种畸变直接在 16-class-ImageNet 图画(有或许进行了图画处理)上从头开端练习一个网络。图 4(A1-A9)展现了练习的成果。咱们发现,这些特定的网络在其所练习的图画处理类型上总是优于人类观察者的体现(即图中对角线上的优秀成果)。这标明,当时所用的架构(比方 ResNet-50)和练习办法(规范的优化器和练习进程)足以「处理」独立同散布的练习/测验条件下的畸变。咱们不只能处理 Dodge and Karam (2017a) 观察到的人类与 DNN 体现的差异问题(他们在畸变上对网络进行了精密调理,但得到的 DNN 未到达人类水平),并且能在这方面逾越人类的水平。虽然人类视觉体系的结构必定更为杂乱 [Kietzmann et al. (2017)],但看起来对处理这类图画处理问题来说好像并不是必需的。
可是,正如之前指出的那样,稳健的泛化才干的要害不是处理事前已知的特定问题。因而,咱们测验了在特定畸变类型上练习的网络在另一些畸变上的体现。图 4 A1-A9 中非对角线上的数据即为实验成果。整体而言,咱们发现,在一些事例中,在特定畸变上练习能略微提高在其它畸变上的体现,但也有一些事例给出了相反的成果(比较对象是在五颜六色图画上练习的纯 ResNet-50,即图中的 A1)。一切网络在椒盐噪声以及均匀噪声上的体现都挨近随机乱选,即便是在各自相应的其它噪声模型上直接练习的网络也是如此。由于这两品种型的噪声在人眼看来其实不同并不大(如图 1(c) 所示),所以这一成果或许仍是颇让人惊奇。因而,在一种畸变类型上练习的网络并不总是能完成在其它畸变上的体现提高。
由于只在单一一种畸变上练习好像缺乏认为 DNN 带来强壮的泛化才干,所以咱们还在别的两种设置上练习了相同的架构(ResNet-50)。图 4 中 B1-B9 模型展现了在一种特定的畸变与均匀噪声的组合上练习后的成果(来自每种图画处理办法的练习数据各 50%)。挑选均匀噪声的原因是这好像是对一切网络而言最困难的畸变,因而将这种特定畸变归入练习数据或许是有利的。此外,咱们还在除去了一种畸变(除去了均匀噪声或椒盐噪声)之外的一切畸变上练习了模型 C1 和 C2。
咱们发现,比较于模型 A1-A9,模型 B1-B9 的方针辨认体现有所提高——不论是它们实践练习的畸变上(图 4 中的对角线上的红框),仍是在其它未在练习数据中呈现的畸变上。可是,这一提高的原因很大程度上或许是模型 B1-B9 练习了 200 epoch,而不是像 A1-A9 那样练习了 100 epoch,由于模型 B9(在均匀噪声上练习和测验,200 epoch)的体现也由于模型 A9(在均匀噪声上练习和测验,100 epoch)。因而,当存在严峻畸变时,练习更长时刻或许更有用,但将其它畸变集成到练习进程中却好像并不具有普适的好处。此外,咱们还发现,即便关于单个模型来说,在其所练习的一切 8 种畸变上都到达较高的准确度也是或许(模型 C1 和 C2),可是关于剩余的两种畸变(均匀噪声或椒盐噪声),方针辨认准确度却仅有 11%-14%;比起在同一畸变上练习得到的专用网络(准确度逾越 70%),这一准确度离随机乱选要近得多。
总的来说,这些发现标明仅运用畸变来进行数据增强或许缺乏以战胜咱们发现的泛化问题。问题或许应该变一变了——不再是「为什么 DNN 的泛化才干这么好(在独立同散布条件下)?」[Zhang et al. (2016)],而变成「为什么 DNN 的泛化才干这么糟(在非独立同散布条件下)?」现在被视为人类方针辨认的核算模型的 DNN 将怎么处理这一难题?还有待未来研讨。这个激动人心的范畴处于认知科学/视觉感知和深度学习范畴的交叉点,会从这两个范畴一起罗致创意和新思想:核算机视觉的域习惯子范畴(参看 Patel et al. (2015) 的总述)正在研讨不受输入散布改动所影响的稳健型机器推理办法,一起人类视觉研讨范畴也正在堆集依据证明部分增益操控机制的优势。这些规范化进程好像对动物和人类的稳健视觉的许多方面而言都至关重要 [Carandini and Heeger (2012)],也能猜测人类视觉数据 [Berardino et al. (2017); Schütt and Wichmann (2017)],并以证明可用于核算机视觉 [Jarrett et al. (2009); Ren et al. (2016)]。神经规范化进程与 DNN 的泛化才干之间是否存在相关?这将是值得未来研讨一个风趣方向。
5 总结
咱们根据 12 种不同的图画畸变,对人类和 DNN 的方针辨认稳健性进行了行为比较。咱们发现,与人类观察者比较,在 ImageNet 上练习的三种闻名 DNN(ResNet-152、GoogLeNet 和 VGG-19)的体现会跟着图画畸变所形成的信噪比的减小而敏捷下降。此外,咱们还发现当信号越来越弱时,人类与 DNN 的分类差错办法的不同会逐步增大。咱们在杰出操控的实验室条件下进行了 82880 次心理物理学实验,成果标明人类与当时 DNN 处理方针信息的办法仍存在明显差异。在咱们的设置中,这些差异无法经过在畸变图画上进行练习(即数据增强)而战胜:虽然 DNN 能完美应对其所练习过的特定畸变,但关于它们之前未曾见过的畸变类型,它们依然束手无策。由于潜在畸变的类型根本上是无穷无尽的(不论是理论上仍是实践运用中都是如此),所以不或许在一切畸变上都练习一遍。当超出惯例的独立同散布假定时(通常是不现实的),DNN 就会遇到泛化问题。咱们信任,不论是为了发明稳健的机器推理,仍是为了更好地了解人类方针辨认,处理这一泛化问题都至关重要。咱们期望咱们的发现以及咱们精心丈量并免费揭露的行为数据能为 DNN 稳健性的提高供给一个有用的新基准,并能鼓励神经科学家找到大脑中担任这一超卓的稳健性机制。