<强化学习>基本概念

时间：2020-02-05 16:47:28 阅读：71 评论：0 收藏：0 [点我收藏+]

马尔可夫决策过程MDP，是强化学习的基础。

MDP --- <S，A，P，R，γ>

AGENT

STATE

ENV

REWARD ，agent处于状态s下，采取action之后离开状态获得一个reward。

ACTION ，离散分布，或者连续分布。

VALUE ，有state value V(s)和state-action value Q(s,a)两种。

原文：https://www.cnblogs.com/dynmi/p/12263570.html

踩

(0)

评论一句话评论（0）

分享档案

更多>