首页 > 其他 > 详细

PyTorch中在反向传播前为什么要手动将梯度清零?

时间:2019-08-27 10:33:15      阅读:112      评论:0      收藏:0      [点我收藏+]

对于torch中训练时,反向传播前将梯度手动清零的理解

 

简单的理由是因为PyTorch默认会对梯度进行累加。至于为什么PyTorch有这样的特点,在网上找到的解释是说由于PyTorch的动态图和autograd机制使得其非常灵活,这也意味着你可以得到对一个张量的梯度,然后再次用该梯度进行计算,然后又可重新计算对新操作的梯度,对于何时停止前向操作并没有一个确定的点。所以自动设置梯度为0比较棘手,因为你不知道什么时候一个计算会结束以及什么时候又会有一个新的开始。默认累加的好处是当在多任务中对前面共享部分的tensor进行了多次计算操作后,调用不同任务loss的backward,那些tensor的梯度会自动累加,缺点是当你不想先前的梯度影响到当前梯度的计算时需要手动清零。

PyTorch中在反向传播前为什么要手动将梯度清零?

原文:https://www.cnblogs.com/LiuXinyu12378/p/11416172.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!