莫烦随笔

时间：2019-08-19 18:26:28 阅读：101 评论：0 收藏：0 [点我收藏+]

遗传算法　　　　一次次求得最优解

进化策略　　有效避免局部最优（过拟合）　　并行能力计算

强化学习　　什么都不懂->找到规律　　给你的行为打分　　

核心思想：同样的行为拿到高分，并避免低分的行为　　　　　　分数导向性

技术分享图片

不理解环境：从环境中得到反馈

理解环境：为现实世界建模，多出来个虚拟环境

通过过往的经验理解现实世界是怎样的，并建立一个模型来模拟现实世界的反馈　　　　现实模拟两世界中都可以玩耍　　

通过想象来预判要发生的所有情况，根据想象中的情况选择最好的那种，并根据这种情况来采取下一步的策略

基于概率　　Policy Gradients

通过感官分析所处的环境，直接算出下一步采取行动的概率，根据概率采取行动，每一种动作都可能被选中，只是可能性不同

基于价值：决策部分更为肯定，毫不留情就选价值最高的　　（连续的动作无能为力）Q Learning Sarsa

Actor-Critic 　　基于概率做出动作，并对做出的动作给出动作的价值

原文：https://www.cnblogs.com/zhang1422749310/p/11378735.html

踩

(0)

评论一句话评论（0）

分享档案

更多>