首页 > 其他 > 详细

Naive RNN vs LSTM vs GRU、attention基础

时间：2019-05-03 13:06:59 阅读：268 评论：0 收藏：0 [点我收藏+]

原文地址：https://www.jianshu.com/p/b8653f8b5b2b

一、Recurrent Neural Network

技术分享图片

二、Naive RNN

技术分享图片

Naive RNN更新参数时易出现梯度消失/爆炸的问题。

三、LSTM

技术分享图片

peephole

技术分享图片

Naive RNN vs LSTM
记忆更新部分的操作，Naive RNN为乘法，LSTM为加法。因此LSTM能记得更久些。
记\(\delta_c^t=\frac{\partial L}{\partial c^t}=\frac{\partial L}{\partial c^{t+1}}\frac{\partial c^{t+1}}{\partial c^t}=\delta_c^{t+1}(z^f+\cdots)\)。当\(z^f=1\)时，即使其他项很小，梯度也能够很好地传达到上一个时刻；当\(z^f=0\)时，上一个时刻的记忆不会影响当前时刻，梯度也不会回传回去。因此，\(z^f\)控制了梯度回传的衰减程度。
能有效地缓解梯度消失/爆炸问题。

技术分享图片

LSTM设计原因

技术分享图片

标准形式的LSTM能工作得很好；输入门与遗忘门联动(类似GRU)以及没有peephole也能工作得很好。
输出激活函数、遗忘门对于LSTM的表现很重要。

四、GRU

技术分享图片

与LSTM相比，GRU可以看做是输入门和遗忘门联动。由4个矩阵乘法变为了3个，参数量更少，降低了过拟合的可能性。

五、attention基础

dot
\(S_{ab}=h_a^Th_b\)
general
\(S_{ab}=h_a^T W h_b\)
concat
\(S_{ab}=v^T tanh(W_a h_a+W_b h_b)\)

Naive RNN vs LSTM vs GRU、attention基础

原文：https://www.cnblogs.com/cherrychenlee/p/10804730.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！