首页 > 其他 > 详细

DQN(Deep Reiforcement Learning) 发展历程（三）

时间：2019-02-26 14:04:22 阅读：291 评论：0 收藏：0 [点我收藏+]

目录

不基于模型(Model-free)的预测
参考

DQN发展历程(一)

DQN发展历程(二)

DQN发展历程(三)

DQN发展历程(四)

DQN发展历程(五)

不基于模型(Model-free)的预测

无法事先了解状态转移的概率矩阵

蒙特卡罗方法

从开始状态开始，到终结状态，找到一条完整的状态序列，以求解每个状态的值。相比于在整个的状态空间搜索，是一种采样的方法。
对于某一状态在同一状态序列中重复出现的，有以下两种方法：
- 只选择第一个状态进行求解，忽略之后的所有相同状态
- 考虑所有的状态，求平均值
对于求解每个状态的值，使用平均值代表状态值，根据大数定理，状态数足够多的条件下，该平均值等于状态值。平均值求解有两种方法：
- 存储所有状态后求平均：消耗大量存储空间
- 每次迭代状态都更新当前平均值：

时序差分方法

蒙特卡罗方法需要获得从开始到终结的一条完整的状态序列，以求解每个状态的值，时序差分方法则不需要。根据贝尔曼不等式，只需要从当前状态到下一状态求解。
时序差分方法每步都更新状态值，而蒙特卡罗方法需要等到所有状态结束才更新。
蒙特卡罗方法使用最后的目标来求解状态值，而时序差分使用下一状态的估计在每一步调整状态值。
蒙特卡罗方法是无偏估计方差较大，时序差分则是有篇估计但估计方差小。

多步的时序差分方法

时序差分方法使用当前状态值和下一状态值更新当前状态值，如果使用当前状态值和之后多步的状态值更新当前状态值，就是多步的时序差分方法。
当步数到最后的终结状态时，便是蒙特卡罗方法。
当步数到下一状态时，便是时序差分方法。
多步的时序差分方法，分为前向和后向的时序差分方法。

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

DQN(Deep Reiforcement Learning) 发展历程（三）

原文：https://www.cnblogs.com/vancasola/p/10436177.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！