首页 > 其他 > 详细

【RL系列】Multi-Armed Bandit笔记补充(二)

时间:2018-07-02 21:19:33      阅读:229      评论:0      收藏:0      [点我收藏+]

本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充,主要探讨UCB方法的由来与相关公式的推导。

UCB是一种动作选择策略,主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上,我认为下面这篇文章写的还不错,深入浅出,只不过在公式推导上有一点点问题:

Multi-Armed Bandit: UCB (Upper Bound Confidence)

 

我们先来说一说epsilon-greedy策略在选择动作时有什么问题。如果epsilon值较小,例如epsilon = 0.1,那么每次实验都有10%的概率是随机选择动作,如果K值(选择较多)较大的话,这样的选择效率是较低的。为什么说这样的选择效率是较低的,因为在一定的实验次数内,epsilon-greedy只能大概率判断出最优动作,而对于其它动作的收益如何是没办法判断的。举个例子吧,如果说epsilon-greedy策略可以帮你找到最好吃的那家餐厅,那么UCB就可以帮你给餐厅的好吃程度排个序。

为什么epsilon-greedy策略不能做出排序呢?实际上在实验次数不变的情况下,很有可能某些动作的实验次数不够多,这样很难保证我们由实验统计出的各个动作收益均值与实际的收益均值相吻合。其实在概率统计上,由均值产生的统计概率与真实期望总是会产生一定的差值,这个差值小于一个较小值delta的概率就可以称之为置信度。举个例子,如若置信度为95%时,我们就可以说,有大于95%的可能性,估计的均值与实际的期望之差小于delta,用数学语言描述出来就是,alpha为置信度:

技术分享图片

 

我们将式子稍稍变换一下形式:

技术分享图片

依据中心极限定理,可知:

技术分享图片

所以有:

技术分享图片

这里的delta与n皆为大于0的数,依据不等式[1], 技术分享图片

技术分享图片

这里我们可以令置信度  技术分享图片,即可计算出delta关于alpha的等式:

技术分享图片

为了让置信度尽可能的高,在实际运用中,直接令 技术分享图片,N为实验次数。

所以UCB策略才有如下的形式:

技术分享图片

参考文献:

[1] New Exponential Bounds and Approximations for the Computation of Error Probability in Fading Channels, Marco Chiani, Senior Member, IEEE, Davide Dardari, Member, IEEE, and Marvin K. Simon, Fellow, IEEE. 

【RL系列】Multi-Armed Bandit笔记补充(二)

原文:https://www.cnblogs.com/Jinyublog/p/9255646.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!