imagenet分类top1最⾼分acc80%(⾕歌batchNormalization
深度神经⽹络⾃出现以来,已经成为计算机视觉领域⼀项举⾜轻重的技术。其中,ImageNet 图像分类竞赛极⼤地推动着这项新技术的发展。精确计算⽔平取得了稳步的增长,但颇具吸引⼒的模型应⽤尚未得到合理的利⽤。 本⽂将综合分析实际应⽤中的⼏项重要指标:准确度、内存占⽤、参数、操作时间、操作次数、推理时间、功耗,并得出了以下⼏项主要研究结论: 1. 功耗与批量⼤⼩、体系结构⽆关;
2. 准确度与推理时间呈双曲线关系;
3. 能量限制是最⼤可达准确度和模式复杂度的上限;
油底壳垫4. 操作次数可以有效评估推理时间。
ImageNet 历届冠军架构评析指标
⾃从2012年的 ImageNet 竞赛上,Alexnet取得突破发展,成为第⼀个应⽤深度神经⽹络的应⽤,其他关于DNN的更复杂的应⽤也陆续出现。
图像处理软件分类挑战赛的终极⽬标是,在考虑实际推理时间的情况下,提⾼多层分类框架的准确度。为了达到这个⽬标,就要解决以下三⽅⾯的问题。第⼀,⼀般情况下,我们会在每个验证图像的多个类似实例中运⾏⼀个给定模型的多个训练实例。这种⽅法叫做模型平均或DNN集成,可以极⼤提⾼推理所需的计算量,以获得published准确度。第⼆,不同研究报告中对验证图像做的预估模型(集合)的操作次数不⼀样,模型选择会受到影响,因此不同的抽样⽅法(以及取样集合的⼤⼩不同)得出的报告准确度结果就会有所偏差。第三,加速推理过程是模型实际应⽤的关键,影响着资源利⽤、功耗以及推理延迟等因素,⽽⽬前尚⽆⽅法使推理时间缩短。无线表决器
破窗器原理本⽂旨在对过去4年图像处理软件分类挑战赛上出现的不同种类的先进的DNN架构做对⽐,从计算需
要和准确度两个⾓度做分析,主要⽐较这些架构与资源利⽤实际部署相关的多个指标,即准确度、内存占⽤、参数、操作时间、操作次数、推理时间、功耗。
⽂章主要⽬的是通过分析,强调这些指标的重要性,因为这些指标是优化神经⽹络实际部署与应⽤的基本硬性限制条件。
变速箱试验台评析⽅法
为了⽐较不同模型的质量,我们收集了⽂献中的⼀些数据,分析发现不同的抽样⽅法得出的结论也不⼀样。⽐如,VGG-16和GoogleNet 的central-crop误差分别是8.7%和10.07%,表明VGG-16性能优于googleNet,⽽⽤10-crop抽样,则误差分别是9.33%和
9.15%,VGG-16⼜⽐GoogleNet差了。于是,我们决定基于分析,对所有⽹络重新评估,使⽤单个central-crop抽样⽅法。
等离子割
图1: Top1 vs. ⽹络. Single-crop top-1 ⽤最⾼评分体系检测准确度。上图中不同的配⾊⽅案表⽰不同的架构和作者。注意,同组⽹络共享相同的⾊相,⽐如所有的ResNet系列都是⽤粉⾊系表⽰的。
图 2: Top1 vs. 操作、数量⼤⼩、参数 Top-1 one-crop 准确度与单向前进传递所需操作次数的对⽐。图中⽓泡⼤⼩与⽹络参数数量成正⽐;右下⾓记录的是从5*106 到155*106参数值的历史最⼤值;所有数据都共享⼀个y轴,灰⾊点表⽰⽓泡中⼼的值。
我们使⽤ cuDNN-v5和CUDA-v8配置的Torch 7来做推理时间和内存占⽤测算。所有的试验都使⽤的是JstPack-2.3 NVIDIA Jetson
TX1,内置视觉计算系统,64-bit ARM A57 CPU。
使⽤这种限量级的设备是为了更好地强调⽹络架构的不同,主要是因为使⽤现存的⼤多数GPU,⽐如NVIDIA K40或者Titan X得出的结果基本都⼀样。为了测算功耗,我们使⽤的是Keysight 1146B Hall电流探头,内置Keysight MSO-X 2024A 200MHz 数字显波器,抽样周期2s,采样率50kSa/s。该系统由 Keysight E3645A GPIB数控直流电源供电。
具体结果
我们⽐较了以下 DDN:
AlexNet (Krizhevsky et al., 2012);batch normalised AlexNet (Zagoruyko, 2016);batch normalised Network In Network (NIN) (Lin et al., 2013);
ENet (Paszke et al., 2016) for ImageNet (Culurciello, 2016);
GoogLeNet (Szegedy et al., 2014);
VGG-16 and -19 (Simonyan & Zisserman, 2014);
ResNet-18, -34, -50, -101 and -152 (He et al., 2015);
Inception-v3 (Szegedy et al., 2015) 以及 Inception-v4 (Szegedy et al., 2016)。
1. 准确率(Accuracy)
图 1 展⽰了提交给 ImageNet 挑战赛的架构的 1-crop 准确率,最左边的是 AlexNet,最右边的是 Inception -v4。最新的 ResNet 和Inception 架构相⽐其他架构准确率⾄少⾼ 7%。本⽂中,我们使⽤不同的颜⾊区分不同的架构和他们的作者,同⼀个⽹络的⾊系相同,例如粉⾊系的都是 ResNet。
图2 则提供了各⽹络更详细的准确率值,将计算成本和⽹络参数的数量可视化呈现。⾸先⾮常明显的是,VGG 不管从计算需求还是参数数量⽅⾯来说,都是迄今为⽌最昂贵的架构,尽管它已经被⼴泛应⽤于许多应⽤程序。VGG 的16层和19层的实现实际上与其他所有⽹络都是隔绝的。其他的架构形成了⼀条斜线,到 Inception 和 ResNet 时,这条线开始变平缓。这表明这些模型在该数据集上到达⼀个拐点。在这个拐点上,计算成本(复杂性)开始超过准确率上的好处。
2. 推理时间(Inference Time)
上图(图3)显⽰了各架构在每个图像上的推理时间,作为⼀个图像批⼤⼩(从1到64)函数。我们注意到 VGG 处理⼀张图像所需时间约1/5秒,这使它在 NVIDIA TX1 上实时应⽤的可能性较⼩。AlexNet 的批⼤⼩从1到64的变化中,处理速度提升了3倍,这是由于它的完全连接层的弱优化,这个发现令⼈惊讶。
3. 功耗(Power)
由于电流消耗的⾼频率波动,功耗的测量相当复杂,需要⾼采样电流读出以避免混淆。在本研究中,我们使⽤的测量⼯具是带电流探头的200 MHz 数字⽰波器。如上图所⽰,功耗多数情况下与批⼤⼩⽆关。由图3可见,AlexNet (批⼤⼩为1)和 VGG(批⼤⼩为2)的低功耗与较慢的推理时间相关。
4 内存(Memory)
分析使⽤ CPU 和 GPU 共享内存的 TX1 设备的系统内存消耗得到的结果由下图可见,最初最⼤系统内存使⽤情况是不变的,随着批⼤⼩增加,内存消耗增⼤。这是由于⽹络模型的初始内存分配以及批处理时的内存需求随着图像数量的增加⽽成⽐例地增加。
从上图中我们注意到,对规模⼩于 100 MB的⽹络,初始内存分配不会⼩于 200 MB,⽽且随后呈现为⼀条斜率为1.3的线性函数。
5 运算(Operations)
旋转式清堵机看看
在神经⽹络加速器的⾃定义实现中,运算量(operation count)对于预估推理时间和硬件电路体积是必要的。