马尔可夫决策过程MDP,是强化学习的基础。
MDP --- <S,A,P,R,γ>
AGENT
STATE
ENV
REWARD ,agent处于状态s下,采取action之后离开状态获得一个reward。
ACTION ,离散分布,或者连续分布。
VALUE ,有state value V(s)和state-action value Q(s,a)两种。
<强化学习>基本概念
原文:https://www.cnblogs.com/dynmi/p/12263570.html