郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
我们提出了一个基于生物学的神经模型,能够在复杂的任务中执行强化学习。该模型的独特之处在于,它能够在一个行动、状态转换和奖励之间存在未知和可变时间延迟的环境中,解决需要智能体执行一系列未经奖励的操作以达到目标的任务。具体来说,这是第一个能够在半马尔可夫决策过程(Semi-Markov Decision Process,SMDP)框架内发挥作用的强化学习神经模型。我们认为,当前建模工作的这种扩展为人类决策的日益复杂的模型奠定了基础。
Keywords: 强化学习;神经模型;SMDP
1. Introduction
强化学习(RL)是计算建模与大脑研究交叉融合的最成功领域之一。这始于Schultz(1998)的工作,他证明了模型的明确的计算机制(例如TD强化学习)可以洞察大脑中一些更不透明的机制(例如多巴胺信号)。
早期研究中使用的模型是纯粹算法的,与大脑的生物学特性关系不大。然而,自第一次论证以来,许多新的模型已经开发出来,允许与神经机制进行新颖或更详细的比较。这些神经机制对应的模型更接近反映大脑结构(Frank & Badre, 2012;Stewart et al., 2012)、单个神经元的行为(Seung, 2003;Potjans et al., 2009)或突触学习机制(Florian, 2007;Baras & Meir, 2007)。
在我们的工作中,我们试图保留这些模型的神经解剖学细节,但扩展它们的功能;也就是说,建立能够进行更强大的学习和决策的模型,使它们能够解决更复杂的问题。在这里,我们将介绍一些朝这个方向迈出的第一步。具体来说,我们将讨论实现并展示一个模型的早期结果,该模型能够解决需要扩展动作序列的任务,在这些环境中,动作和奖励之间可能存在未知和可变时间延迟。
2. Background
3. Methods
3.1 Model architecture
3.2 Representing and computing with neural activities
3.3 Learning
3.4 Error calculation
4. Results
5. Discussion
A neural reinforcement learning model for tasks with unknown time delays
原文:https://www.cnblogs.com/lucifer1997/p/12944231.html