首页 > 其他 > 详细

深度学习实战-强化学习-九宫格

时间:2019-04-08 11:40:40      阅读:377      评论:0      收藏:0      [点我收藏+]

强化学习使用的是bellmen方程,即当前奖励值 = max(当前位置的及时奖励 + discout_factor * 下一个方向的奖励值)   discount_factor表示奖励的衰减因子

使用的是预先制造好的九宫格的类

代码说明:

     env.nA,即每个位置的下一个方向的个数为4 

     env.nS 表示九宫格的大小为16

     env.P[state][a] 表示九宫格对应位置的方向,返回的是prob概率, next_state下一个位置,reward及时奖励, done是够到达出口

     env.shape 表示九宫格的形状,4*4

 

代码:

     第一步:定义总的函数valueiteration, 输入参数为env, theta=0.0001变化的阈值, discout_factor=1.0奖励的衰减值 

     第二步:定义one_step_

     

 

深度学习实战-强化学习-九宫格

原文:https://www.cnblogs.com/my-love-is-python/p/10669542.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!