首页 > 其他 > 详细

CS294-112 深度强化学习 秋季学期(伯克利)NO.4 Policy gradients introduction

时间:2018-05-25 00:03:26      阅读:207      评论:0      收藏:0      [点我收藏+]

技术分享图片

 

 

 

 技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

green bar is the reward function, blue curve is the possibility of differenct trajectories

 

 

 

 技术分享图片

if green bars are equally increased to yellow bars, the result will change!

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 技术分享图片

 

 

 

  技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 技术分享图片

 

 

  

 技术分享图片

 

 

 技术分享图片

技术分享图片

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 技术分享图片

技术分享图片

技术分享图片

 

 

 

 技术分享图片

 

CS294-112 深度强化学习 秋季学期(伯克利)NO.4 Policy gradients introduction

原文:https://www.cnblogs.com/ecoflex/p/9085805.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!