首页 > 其他 > 详细

增强学习的基本概念(2)

时间:2017-09-17 12:50:30      阅读:279      评论:0      收藏:0      [点我收藏+]

对于增强学习的控制问题,有两个著名的基础算法:Sarsa、Q-Learning

(1) Sarsa 算法流程:

   对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0

  迭代每一训练集episode:

    初始化状态 S

    根据策略Q,按照当前的状态 S,选择动作 A(如:小概率-贪婪算法)

    迭代训练集的每一步:

      采取动作A, 观察奖励值 R 和下一步状态 S’

      根据策略Q,按照下一状态 S’,选择动作 A‘(如:小概率-贪婪算法)

      Q(S,A) := Q(S,A) + α[R+γQ(S‘,A‘) - Q(S,A)]

      S := S‘

      A := A‘

    直到状态S 结束

 

(2) Q-Learning 算法流程:

   对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0

  迭代每一训练集 episode:

    初始化状态 S

    迭代训练集的每一步 step:

      根据策略Q,按照下一状态 S,选择动作 A(如:小概率-贪婪算法)

      采取动作A, 观察奖励值 R 和下一步状态 S’

      Q(S,A) := Q(S,A) + α[R+γmax(Q(S‘,a)) - Q(S,A)]

      S := S‘

    直到状态S 结束

增强学习的基本概念(2)

原文:http://www.cnblogs.com/swagger2016/p/7534754.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!