为什么需要每次计算梯度都要清空

时间：2020-02-26 14:15:41 阅读：357 评论：0 收藏：0 [点我收藏+]

根据pytorch中的backward()函数的计算，当网络参量进行反馈时，梯度是被积累的而不是被替换掉；但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积，因此这里就需要每个batch设置一遍zero_grad 了。

其实这里还可以补充的一点是，如果不是每一个batch就清除掉原有的梯度，而是比如说两个batch再清除掉梯度，这是一种变相提高batch_size的方法，对于计算机硬件不行，但是batch_size可能需要设高的领域比较适合，比如目标检测模型的训练。

————————————————
版权声明：本文为CSDN博主「xiaoxifei」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/xiaoxifei/article/details/83474724

原文：https://www.cnblogs.com/lishikai/p/12366779.html

踩

(0)

评论一句话评论（0）

分享档案

更多>