循环神经网络与应用（案例还不错）

时间：2020-10-29 16:06:25 阅读：140 评论：0 收藏：0 [点我收藏+]

循环神经网络与应用

寒小阳

2018

主要内容

n 循环神经网络 1.场景与多种应用 2.层级结构 3.多种RNN 4.BPTT算法

5.生成模型与图像描述

n LSTM

1.长时依赖问题 2.“记忆细胞”与状态 3.GRU

2/54

循环神经网络经典应用

o 模仿论文(生成序列)

3/54

循环神经网络经典应用

o 模仿linux内核代码“写程序”(生成序列)

4/54

循环神经网络经典应用

o 模仿小四的作品(生成文本序列)

5/54

循环神经网络经典应用

o 机器翻译

6/54

循环神经网络与应用

o Image to text/看图说话

7/54

神经网络到循环神经网络

o 我们知道神经网络结构如下

o 那循环神经网络和它是什么关系呢? 8/54

循环神经网络

o 为什么有BP神经网络，CNN，还要RNN? n 传统神经网络(包括CNN)，输入和输出都是互相

独立的。

? 图像上的猫和狗是分隔开的，但有些任务，后续的输出和之前的内容是相关的。

? “我是中国人，我的母语是___” n RNN引入“记忆”的概念

? 循环2字来源于其每个元素都执行相同的任务。 ? 但是输出依赖于输入和 “记忆”

9/54

循环神经网络之结构 o 简单来看，把序列按时间展开

10/54

循环神经网络之结构

o Xt是时间t处的输入
o St是时间t处的“记忆”，St=f(UXt+WSt?1)，f可以是tanh等

o Ot是时间t出的输出，比如是预测下个词的话，可能是 softmax输出的属于每个候选词的概率，Ot = softmax(VSt)

11/54

循环神经网络之结构细节
o 可以把隐状态St视作“记忆体”，捕捉了之前时间点上

的信息。

o 输出Ot由当前时间及之前所有的“记忆”共同计算得到。

o 很可惜，实际应用中，St并不能捕捉和保留之前所有信息(记忆有限?)

o 不同于CNN，这里的RNN其实整个神经网络都共享一组参数(U,V,W)，极大减小了需要训练和预估的参数量

o 图中的Ot在有些任务下是不存在的，比如文本情感分析，其实只需要最后的output结果就行

12/54

RNN唐诗生成器参见课程数据与代码

13/54

不同类型的RNN

o 双向RNN o有些情况下，当前的输出不只依赖于之前的序列元素，

还可能依赖之后的序列元素 o比如从一段话踢掉部分词，让你补全 o直观理解:双向RNN叠加

14/54

不同类型的RNN

o 深层双向RNN o和双向RNN的区别是每一步/每个时间点我们设定多层结构

15/54

RNN与BPTT算法

o MLP(DNN)与CNN用BP算法求偏导
o BPTT和BP是一个思路，只不过既然有step，就和时间t有关系

16/54

RNN与BPTT算法

但是依赖于s2 链式法则

17/54

RNN与BPTT算法

链式法则

18/54

简单image to text

19/54

简单image to text

20/54

图片描述数据集
pMicrosoft COCO数据集:http://mscoco.org

? 12w图片
? 5句话描述/每张图片

21/54

RNN与图片描述 p 部分结果

22/54

循环神经网络之 LSTM

o 前面提到的RNN解决了，对之前的信息保存的问题 o 但是!存在长期依赖的问题。

n 看电影的时候，某些情节的推断需要依赖很久以前的一些细节。

n 很多其他的任务也一样。
n 很可惜随着时间间隔不断增大时，RNN 会丧失学习到连

接如此远的信息的能力。

n 也就是说，记忆容量有限，一本书从头到尾一字不漏的去记，肯定离得越远的东西忘得越多。

n 怎么办:LSTM

23/54

循环神经网络之 LSTM

o LSTM是RNN一种，大体结构几乎一样。区别是? o它的“记忆细胞”改造过。 o该记的信息会一直传递，不该记的会被“门”截断。

24/54

循环神经网络之 LSTM o 之前提到的RNN结构如下