首页 > 其他 > 详细

A neural reinforcement learning model for tasks with unknown time delays

时间:2020-05-23 21:58:02      阅读:61      评论:0      收藏:0      [点我收藏+]

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

技术分享图片

 

 

Abstract

  我们提出了一个基于生物学的神经模型,能够在复杂的任务中执行强化学习。该模型的独特之处在于,它能够在一个行动、状态转换和奖励之间存在未知和可变时间延迟的环境中,解决需要智能体执行一系列未经奖励的操作以达到目标的任务。具体来说,这是第一个能够在半马尔可夫决策过程(Semi-Markov Decision Process,SMDP)框架内发挥作用的强化学习神经模型。我们认为,当前建模工作的这种扩展为人类决策的日益复杂的模型奠定了基础。

 

Keywords: 强化学习;神经模型;SMDP

 

1. Introduction

 

  强化学习(RL)是计算建模与大脑研究交叉融合的最成功领域之一。这始于Schultz(1998)的工作,他证明了模型的明确的计算机制(例如TD强化学习)可以洞察大脑中一些更不透明的机制(例如多巴胺信号)。

 

  早期研究中使用的模型是纯粹算法的,与大脑的生物学特性关系不大。然而,自第一次论证以来,许多新的模型已经开发出来,允许与神经机制进行新颖或更详细的比较。这些神经机制对应的模型更接近反映大脑结构(Frank & Badre, 2012;Stewart et al., 2012)、单个神经元的行为(Seung, 2003;Potjans et al., 2009)或突触学习机制(Florian, 2007;Baras & Meir, 2007)。

 

  在我们的工作中,我们试图保留这些模型的神经解剖学细节,但扩展它们的功能;也就是说,建立能够进行更强大的学习和决策的模型,使它们能够解决更复杂的问题。在这里,我们将介绍一些朝这个方向迈出的第一步。具体来说,我们将讨论实现并展示一个模型的早期结果,该模型能够解决需要扩展动作序列的任务,在这些环境中,动作和奖励之间可能存在未知和可变时间延迟。

 

 

2. Background

 

3. Methods

3.1 Model architecture

 

3.2 Representing and computing with neural activities

 

3.3 Learning

 

3.4 Error calculation

 

4. Results

 

5. Discussion

 

A neural reinforcement learning model for tasks with unknown time delays

原文:https://www.cnblogs.com/lucifer1997/p/12944231.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!