总的来说这篇论文提出了ResNet架构,让训练非常深的神经网络(NN)成为了可能。
为什么需要堆叠更深的NN呢?
论文阐述道
-- 深度神经网络自然的集成了低、中、高阶特征,同时随着网络深度的提升,这些特征也会随之丰富,这些丰富的特征对于最后执行的分类或回归任务来说都是很有意义的,一般认为可以获得更好的结果;
但是,论文又指出一些问题,堆叠深层的NN存在一些问题:
-- 堆叠深层的网络后,网络的学习会变得更加的不容易,因为存在着梯度消失/爆炸问题(BN一定程度解决),会妨碍模型的收敛,使得模型不能得到很好的学习;
-- 通过实验发现,堆叠更深的网络存在着退化问题,即随着深度的增加,在分类任务中的正确率会饱和并开始迅速的下降,并且会得到更大的训练损失;
所以可以得到想要优化深层的网络结果并不容易,那么现有解决方法是怎么构造更深层的模型呢?
作者阐述了一种方法就是:增添的网络层都是恒等映射网络,同时其他的层是从已经学习的较浅的层复制而来的结构。
-- 因为都是恒等映射和从浅层模型中复制而来的,所以就可以推导出这样构造的更深层的结构的训练损失并不会高于与它对应的浅层结构;
但是同时指出: 我们现有的解决方案无法找到比构造的解决方案更好或更好的解决方案。那么有没有方法既可以有深层的网络结构,又便于网络进行训练学习呢?所以作者提出了自己的解决方案:
-- 提出了深度残差学习(deep resdual learning)架构去解决由于网络深度增加而出现的退化问题;
-- 提出网络拟合一个残差映射而不是直接拟合一个想得到的潜在的映射的思路;
具体的:
定义$\text{H}(\textbf{x})$为想得到的潜在的映射;
堆叠非线性层去拟合另一个映射:
论文解读《Deep Resdual Learning for Image Recognition》
原文:https://www.cnblogs.com/ChenKe-cheng/p/11367730.html