首页 > 其他 > 详细

<强化学习>基本概念

时间:2020-02-05 16:47:28      阅读:66      评论:0      收藏:0      [点我收藏+]

马尔可夫决策过程MDP,是强化学习的基础。

MDP --- <S,A,P,R,γ>

 

AGENT

STATE

ENV 

REWARD   ,agent处于状态s下,采取action之后离开状态获得一个reward。

ACTION     ,离散分布,或者连续分布。

VALUE       ,有state value V(s)和state-action value Q(s,a)两种。

<强化学习>基本概念

原文:https://www.cnblogs.com/dynmi/p/12263570.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!