首页 > 其他 > 详细

机器学习工程师 - Udacity 强化学习 Part Four

时间:2019-02-14 16:04:36      阅读:306      评论:0      收藏:0      [点我收藏+]

1.

技术分享图片

如果你想详细了解首次经历和所有经历 MC 方法之间的区别,建议你阅读此论文的第 3 部分。结果在第 3.6 部分进行了总结。作者指出:

  • 所有经历 MC 存在偏差,而首次经历 MC 不存在偏差(请参阅 Theorems 6 和 7)。
  • 一开始,所有经历 MC 具有更低的均方误差 (MSE),但是随着经历更多的阶段,首次经历 MC 的均方误差更低(请参阅 Corollary 9a 和 10a,以及图 4)。

当每个状态的经历次数接近无穷大时,首次经历和所有经历方法都保证会收敛于真值函数。(换句话说,只要智能体在每个状态获取足够的经验,值函数估值将非常接近真值。)对于首次经历 MC,收敛性遵守大数定律,详情请参阅该教科书的第 5.1 部分。

机器学习工程师 - Udacity 强化学习 Part Four

原文:https://www.cnblogs.com/paulonetwo/p/10375057.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!