首页 > 其他 > 详细

强化学习-SARSA(lambda)路径规划

时间:2020-08-25 09:23:59      阅读:121      评论:0      收藏:0      [点我收藏+]

1. 问题:612个点 [(x,y,z), 标号1,标号2]

    约束:整体

              水平

              垂直

2. State: {w_ij}

    Action: 校正点坐标

    Reward: { -1 ; 1000/distance(s,a); 10}

3. 

   在状态S基于$\epsilon$贪心策略选择动作A,

   转移到状态S’,给予奖励R

   在下一步暂时不选择动作A‘,而是更新价值表Q

   输入:S,A,迭代轮数T,步长$\alpha$,衰减因子$\gamma$, $\epsilon$

   输出:状态集合和动作集合对应的价值表Q

   E(s,a) = E(s,a) + 1  #当前步在(s,a), 表示离奖励或惩罚更近,增加该步的权重

  for s $\in$ S, a $\in$ A :

   更新:Q(s,a) += $\alpha ( R+ \gamma Q^{\‘} (s^{\‘}, a^{\‘}) - Q(s,a) ) E(s,a) $

              E(s,a) = $\lambda \gamma$ E(s,a) #之后都不走这步

4. 优化:空间余弦:校正点与A构成的向量,与AB构成的向量的空间余弦的正负作为评判飞行器的飞行方向

    转为曲线:输入A, P1, P2; 先求O,再求M

                      输出AP1, P1M弧,MP2

强化学习-SARSA(lambda)路径规划

原文:https://www.cnblogs.com/Nooni/p/13557682.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!