最终训练的精度比较如下(横坐标1个单位为10次迭代):
可见,经过BN之后,收敛快很多。
Batch Normalization优化比较
原文:https://www.cnblogs.com/xjlearningAI/p/14403229.html