Convex Regularization in Monte-Carlo Tree Search

时间：2021-07-30 09:09:12 阅读：22 评论：0 收藏：0 [点我收藏+]

技术分享图片
发表时间：2021（ICML 2021）
文章要点：之前PUCT的MCTS收敛速度是多项式的，这篇文章提出了凸正则化的方式将收敛速度提高到了指数级。主要修改的是PUCT这个采样策略，以及Q value的更新方式。通过Legendre-Fenchel transform把学Q变成了学一个对偶Q函数，
技术分享图片

Q的更新变成了

同时policy的学习改为

总结：基于Maximum Entropy Monte-Carlo Planning做的，里面的理论还要从这篇里找找。然后还有一些新知识，Tsallis entropy, Legendre-Fenchel transform，Bregman divergence。实验结果来看，也不是就完全比UCT好，有的好一点，有的也更差了。
疑问：其实理论很多都不懂，比如这个sampling policy为啥就写成这样了？证明也没看，现在看到证明就有点难受呀，感觉前面好多基本知识不了解，看不下去，不好的趋势啊。然后在Atari上做实验的时候，先用DQN预训练一个action value function给树搜索用，这是啥逻辑？就为了单比几种MCTS的优劣吗，不用MCTS结合RL来训？而且从结果看来，其实没有很大差别，几个算法都差不多。不过这个方式可能也说明了，以后所有RL的算法训练好了之后，其实都可以和MCTS套在一起，相当于多加了一层planning，只要解决model的问题，就可以无缝衔接了。

Convex Regularization in Monte-Carlo Tree Search

原文：https://www.cnblogs.com/initial-h/p/15077698.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)