强化学习使用的是bellmen方程,即当前奖励值 = max(当前位置的及时奖励 + discout_factor * 下一个方向的奖励值) discount_factor表示奖励的衰减因子
使用的是预先制造好的九宫格的类
代码说明:
env.nA,即每个位置的下一个方向的个数为4
env.nS 表示九宫格的大小为16
env.P[state][a] 表示九宫格对应位置的方向,返回的是prob概率, next_state下一个位置,reward及时奖励, done是够到达出口
env.shape 表示九宫格的形状,4*4
代码:
第一步:定义总的函数valueiteration, 输入参数为env, theta=0.0001变化的阈值, discout_factor=1.0奖励的衰减值
第二步:定义one_step_
原文:https://www.cnblogs.com/my-love-is-python/p/10669542.html