A neural reinforcement learning model for tasks with unknown time delays

时间：2020-05-23 21:58:02 阅读：61 评论：0 收藏：0 [点我收藏+]

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

技术分享图片

Abstract

　　我们提出了一个基于生物学的神经模型，能够在复杂的任务中执行强化学习。该模型的独特之处在于，它能够在一个行动、状态转换和奖励之间存在未知和可变时间延迟的环境中，解决需要智能体执行一系列未经奖励的操作以达到目标的任务。具体来说，这是第一个能够在半马尔可夫决策过程（Semi-Markov Decision Process，SMDP）框架内发挥作用的强化学习神经模型。我们认为，当前建模工作的这种扩展为人类决策的日益复杂的模型奠定了基础。

Keywords: 强化学习；神经模型；SMDP

1. Introduction

　　强化学习（RL）是计算建模与大脑研究交叉融合的最成功领域之一。这始于Schultz（1998）的工作，他证明了模型的明确的计算机制（例如TD强化学习）可以洞察大脑中一些更不透明的机制（例如多巴胺信号）。

　　早期研究中使用的模型是纯粹算法的，与大脑的生物学特性关系不大。然而，自第一次论证以来，许多新的模型已经开发出来，允许与神经机制进行新颖或更详细的比较。这些神经机制对应的模型更接近反映大脑结构（Frank & Badre, 2012；Stewart et al., 2012）、单个神经元的行为（Seung, 2003；Potjans et al., 2009）或突触学习机制（Florian, 2007；Baras & Meir, 2007）。

　　在我们的工作中，我们试图保留这些模型的神经解剖学细节，但扩展它们的功能；也就是说，建立能够进行更强大的学习和决策的模型，使它们能够解决更复杂的问题。在这里，我们将介绍一些朝这个方向迈出的第一步。具体来说，我们将讨论实现并展示一个模型的早期结果，该模型能够解决需要扩展动作序列的任务，在这些环境中，动作和奖励之间可能存在未知和可变时间延迟。

2. Background

3. Methods

3.1 Model architecture

3.2 Representing and computing with neural activities

3.3 Learning

3.4 Error calculation

4. Results

5. Discussion

A neural reinforcement learning model for tasks with unknown time delays

原文：https://www.cnblogs.com/lucifer1997/p/12944231.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)