首页 > 其他 > 详细

增量式强化学习

时间：2017-08-26 13:19:31 阅读：489 评论：0 收藏：0 [点我收藏+]

线性逼近：

相比较于非线性逼近，线性逼近的好处是只有一个最优值，因此可以收敛到全局最优。其中技术分享为状态s处的特征函数，或者称为基函数。

常用的基函数的类型为：

技术分享

增量式方法参数更新过程随机性比较大，尽管计算简单，但样本数据的利用效率并不高。而批的方法，尽管计算复杂，但计算效率高。

批处理方法：

技术分享

深度强化学习：

Q-learning方法是异策略时序差分方法。其伪代码为：

离策略：是指行动策略（产生数据的策略）和要评估的策略不是一个策略。在图Q-learning 伪代码中，行动策略（产生数据的策略）是第5行的\varepsilon -greedy策略，而要评估和改进的策略是第6行的贪婪策略（每个状态取值函数最大的那个动作）。

所谓时间差分方法，是指利用时间差分目标来更新当前行为值函数。在图1.1 Q-learning伪代码中，时间差分目标为技术分享。

增量式强化学习

原文：http://www.cnblogs.com/imagef/p/7434995.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！