首页 > 移动平台 > 详细

Policy-based Approach(基于策略的方法)

时间:2020-02-28 19:01:03      阅读:101      评论:0      收藏:0      [点我收藏+]

技术分享图片

 

 

 

 技术分享图片

技术分享图片

 

step 1:Neural Network as Actor

技术分享图片

 

 

step 2:goodness of function(训练一些Actor)

技术分享图片是一个序列,包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。

技术分享图片是一个奖励和。

技术分享图片是某一设定好的参数技术分享图片获得的总平均奖励

 用策略技术分享图片去玩N次游戏获得N个技术分享图片,则从概率技术分享图片中进行采样。

技术分享图片

 

 

 

 

 

 step 3:pick the best function(找到最好的一个Actor)

 方法:Gradient Ascent

即最大化技术分享图片,用Gradient Ascent方法寻找使技术分享图片最大的技术分享图片

 技术分享图片

 

 

 技术分享图片

 

 技术分享图片

技术分享图片

技术分享图片

 

添加偏置

这里的技术分享图片有可能总是正数,加上一个偏置b即可。

如果相减还是得到一个正数则可以提高该行为的概率,否则降低该行为的概率

技术分享图片

 

Policy-based Approach(基于策略的方法)

原文:https://www.cnblogs.com/phonard/p/12378148.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!