首页 > 其他 > 详细

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

时间:2018-05-01 19:15:58      阅读:327      评论:0      收藏:0      [点我收藏+]

技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

技术分享图片

https://statweb.stanford.edu/~owen/mc/Ch-var-is.pdf

 https://zhuanlan.zhihu.com/p/29934206

 

 

 

 

技术分享图片

 

 

 

 

 

 

 技术分享图片

 blue curve is the lower bounded one

 

 

 

技术分享图片

 

conjugate gradient to solve the optimization problem.

 

 

技术分享图片

Fisher information matrix, natural policy gradient

 

 

 

 

技术分享图片

 

 

 

 

 

 技术分享图片

 

To write down an optimization problem, we can solve more robustly with more sample efficiency to update policy

 But Lis Lpg is not constrained, so we use KL to ...

 

 

 

技术分享图片

it‘s hard to choose beta

 

 

 

 

 技术分享图片

 

 

 

 

技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

 

技术分享图片

 

 

 

 

技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

 

技术分享图片

 

TRPO is much worse than A3C on imaging game, where PPO does better

see the slide: limitations of TRPO

 

 

 

技术分享图片

 

 

技术分享图片

 

 

 

技术分享图片

 

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

原文:https://www.cnblogs.com/ecoflex/p/8976876.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!