首页 > 编程语言 > 详细

Reinforcement Learning Q-learning 算法学习-2

时间:2015-12-31 22:49:59      阅读:322      评论:0      收藏:0      [点我收藏+]

在阅读了Q-learning 算法学习-1文章之后。

我分析了这个算法的本质。

算法本质个人分析。

1.算法的初始状态是随机的,所以每个初始状态都是随机的。所以每个初始状态出现的概率都一样的,如果训练的速度多的

话。所以起始的Q(X,Y) 肯定是从目标的周围开始分散开来。也就是目标状态为中心的行为分数会最高。

如 Q(1,5)  Q(4,5)  Q(5,5)这样就可以得到第一级别的经验了。并且分数最高。

 

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

 

R(state, action) 函数决定了只有在目标的周围才能产生初始的经验。

然后扩散出来。

Max[Q(next state, all actions)] 函数决定了选择最优的线路

 

2.当出现第一级别的经验之后,才能得到第二级别的经验。否则就得不到经验了。

然后第二级别的经验会比第一级别的低一个比例,由Gamma决定。

 

3.以此类推,第三级别的。第三级别的经验会比第二级别的低一个比例。也是由Gamma决定

 

4.这样就得到了一个最短路径的结果。

 

Reinforcement Learning Q-learning 算法学习-2

原文:http://www.cnblogs.com/ioio/p/5092653.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!