第四周:卷积神经网络 part3
基本应用:
循环神经网络和卷积神经网络的不同是什么?
LSTM(长短期记忆模型)由三个门(遗忘门、输入门、输出门)组成,来保护和控制细胞状态。
遗忘门:决定丢弃信息
输入门:确认需要更新的信息
输入门:确认需要更新的信息
遗忘门:
输入门:
输出门:
小结:
LSTM实现了三个门计算,即遗忘门,输入门,和输出门。
LSTM的一个初始化技巧就是将输出门的bias置为正数(例如1或5,这点可以查看各大框架代码),
这样模型刚开始训练时forget gate的值接近于1,不会发生梯度消失。
但LSTM有三个门,运算复杂,如何解决?->GRU
什么是attention?
是受到人类注意力机制的启发。人们在进行观察图像的时候,其实并不是一次就
把整幅图像的每个位置像素都看过,大多是根据需求将注意力集中到图像的特定
部分。而且人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的
位置。
原文:https://www.cnblogs.com/yuzhenfu/p/13546184.html