首页 > 其他 > 详细

南京大学俞扬博士:强化学习前沿(下) (转载)

时间:2019-01-23 15:04:31      阅读:242      评论:0      收藏:0      [点我收藏+]

来源:雷锋网

原地址:

http://news.ifeng.com/a/20170515/51093579_0.shtml

=====================================================

 

 

雷锋网[AI科技评论]按:本文根据俞扬博士在中国人工智能学会AIDL第二期人工智能前沿讲习班"机器学习前沿"所作报告《强化学习前沿》编辑整理而来,雷锋网在未改变原意的基础上略作了删减,并经俞扬博士指正确认,特此感谢。全文分为上下两篇,本文为下篇。

上篇传送门:《南京大学俞扬博士:强化学习前沿(上)》

 技术分享图片

 

俞扬博士、副教授,主要研究领域为人工智能、机器学习、演化计算。分别于2004年和2011年获得南京大学计算机科学与技术系学士学位和博士学位。

 

2011年8月加入南京大学计算机科学与技术系、机器学习与数据挖掘研究所(LAMDA)从事教学与科研工作。曾获2013年全国优秀博士学位论文奖、2011年中国计算机学会优秀博士学位论文奖。发表论文40余篇,包括多篇Artificial Intelligence、IJCAI、AAAI、NIPS、KDD等国际一流期刊和会议上,研究成果获得IDEAL‘16、GECCO‘11、PAKDD‘08最佳论文奖,以及PAKDD’06数据挖掘竞赛冠军等。

 

任《Frontiers of Computer Science》青年副编辑,任人工智能领域国际顶级会议IJCAI’15/17高级程序委员、IJCAI‘16/17 Publicity Chair、ICDM‘16 Publicity Chair、ACML‘16 Workshop Chair。指导的学生获天猫“双十一”推荐大赛百万大奖、Google奖学金等。

 

 

在此列出俞扬老师讲课目录,以供读者参考:

  • 一、介绍(Introduction)

  • 二、马尔可夫决策过程(Markov Decision Process)

  • 三、从马尔可夫决策过程到强化学习(from Markov Decision Process to Reinforce Learning)

  • 四、值函数估计(Value function approximation)

  • 五、策略搜索(Policy Search)

  • 六、游戏中的强化学习(Reinforcement Learning in Games)

  • 七、强化学习总结

  • 八、强化学习资源推荐

 

 

 

 

三、从马尔可夫决策过程到强化学习

在强化学习任务中,奖赏和转移都是未知的,需要通过学习得出。具体解决办法有两个:

一种是还原出奖赏函数和转移函数。首先把MDP还原出来,然后再在MDP上解这个策略,这类方法称为有模型(Model-Based)方法,这里的模型指的是MDP。

还有一类和它相对应的方法,免模型(Model-Free)法,即不还原奖赏和转移。

 

 

 

  • 基于模型的方法

在这类方法中,智能体会维护Model(即MDP),然后从Model中求解策略。

从随机策略开始,把策略放到环境中运行,从运行的序列数据中把MDP恢复出来。因为序列数据可以提供环境转移和奖赏的监督信息,简单的做一个回归,就能知道一个状态做了一个动作下面会转移到哪儿,以及能得到的奖赏是多少。

 

这里有一个非常简单的环境探索方法——RMax,它用了计数这个非常简单的回归模型。

 技术分享图片

  虽然看起来很简单,但是还原MDP的样本复杂度是状态数的平方,远高于前面说到的求解策略的复杂度。

  从这里可以看出学习MDP的复杂度极高,所以大量的研究工作都集中在免模型学习上。

 

 

 

 

 

 

 

 

 

 

=====================================================

本文转自雷锋网,如需转载请至雷锋网官网申请授权

南京大学俞扬博士:强化学习前沿(下) (转载)

原文:https://www.cnblogs.com/devilmaycry812839668/p/10308770.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!