Policy-based Approach(基于策略的方法)

时间：2020-02-28 19:01:03 阅读：105 评论：0 收藏：0 [点我收藏+]

技术分享图片

step 1:Neural Network as Actor

技术分享图片

step 2:goodness of function(训练一些Actor)

技术分享图片是一个序列，包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。

技术分享图片是一个奖励和。

技术分享图片是某一设定好的参数获得的总平均奖励

用策略技术分享图片去玩N次游戏获得N个，则从概率中进行采样。

技术分享图片

step 3:pick the best function(找到最好的一个Actor)

方法：Gradient Ascent

即最大化技术分享图片，用Gradient Ascent方法寻找使最大的

技术分享图片

添加偏置

这里的技术分享图片有可能总是正数，加上一个偏置b即可。

如果相减还是得到一个正数则可以提高该行为的概率，否则降低该行为的概率

技术分享图片

原文：https://www.cnblogs.com/phonard/p/12378148.html

踩

(0)

评论一句话评论（0）

分享档案

更多>