首页 > 其他 > 详细

《价值迭代 策略迭代》

时间:2020-09-02 22:36:42      阅读:106      评论:0      收藏:0      [点我收藏+]

 

 

值迭代是根据状态期望值选择动作,而策略迭代是先估计状态值然后修改策略

 


 

1.策略迭代的第二步policy evaluation与值迭代的第二步finding optimal value function十分相似,除了后者用了max操作,前者没有max.因此后者可以得出optimal value function, 而前者不能得到optimal function.

2.策略迭代的收敛速度更快一些,在状态空间较小时,最好选用策略迭代方法。当状态空间较大时,值迭代的计算量更小一些。

 技术分享图片

 

 

策略迭代:

policy improvement
既然上一步已经得到了当前策略的评估函数V(s),那么就可以利用这个评估函数进行策略改进啦。
在每个状态s时,对每个可能的动作a,都计算一下采取这个动作后到达的下一个状态的期望价值。看看哪个动作可以到达的状态的期望价值函数最大,就选取这个动作。以此更新了π(s) 

 
 
 
 
 

《价值迭代 策略迭代》

原文:https://www.cnblogs.com/cx2016/p/13604024.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!