关键词
试错,打分,环境,学习
分类
通过价值选行为 | 直接选行为 | 想象环境,并从中学习 |
基于价值 |
不基于价值 | |
Q learning Sarsa Deep Q Network |
Policy Gradients | Model based RL |
不理解环境(Model-free RL) |
理解环境(Model-based RL) |
回合更新vs单步更新
单步更新更有效率,现在常用的Q-learning, Sarsa等都是单步更新
on-policy vs off-policy
从当前经验学习是on-policy;从过往经验和别人经验学习是off-policy(?)
Learning Notes: Morvan - Reinforcement Learning, Part 1: Overview
原文:http://www.cnblogs.com/casperwin/p/6321759.html