首页 > 其他 > 详细

End-to-end Active Object Tracking and Its Real-world Deployment via Reinforcement Learning 笔记

时间:2019-06-02 19:06:17      阅读:95      评论:0      收藏:0      [点我收藏+]

论文原文地址:https://ieeexplore.ieee.org/document/8642452

译文地址:https://baijiahao.baidu.com/s?id=1631851140977931477&wfr=spider&for=pc

端到端的主动跟踪器由三个部分组成:
Observation Encoder、Sequence Encoder、Actor-Critic Network。
Observation Encoder相当于一个前端反馈网络,他包含卷积层、池化层、全连接层等。
Sequence Encoder不仅包含OE中的观测特征,还要有时序特征如速度、移动方向等,因为对于主动跟踪而言,出了要识别和定位object,还要有相应的时序特征。这一部分一般用循环神经网络实现?(原因?)
Actor-Critic  Network把SE中的特征作为输入,分别输出近似的价值函数和动作策略。近似的价值函数即多个Reward之后的Value,在训练时用于计算演员的策略梯度(更新Theta),来更新网络。
动作空间离散时,输出各动作的概率;连续时,输出每一维度动作的平均值和标准差,并用高斯分布(正态分布)来表示动作分布。实验中,他们分别用全连接层来实现。
Reward Function
针对主动目标跟踪任务,我们在目标接近期望位置时给予奖励,远离时给予乘法。
环境增强技术:
为提高泛化能力,主要采用以下随机化方式:
1.跟踪器和目标的初始位置与朝向随机生成。
2.将输入图像进行左右镜像对称(对应的动作空间也将镜像对称)为什么要镜像?
3.随机隐藏一定数目的背景物体。
为更进一步提升模型的泛化能力以便直接迁移至真实场景,我们对关键要素进行了更进一步的随机化:
1.目标和背景的表面材质
2.光照条件
3.目标移动的速度和轨迹。
前两项的随机化为了提升OE的泛化能力,避免网络对特定场景和目标外观过拟合。第三点时为了提升SE的泛化能力,避免网络对特定的移动轨迹过拟合。
在真实场景中的主动目标跟踪:
1.连续动作空间下的表现能力:
   二维动作空间(由线速度和角速度组成)。
真实场景实验设置:
每个50ms(20HZ)跟踪器的状态和动作会更新迭代一次。

End-to-end Active Object Tracking and Its Real-world Deployment via Reinforcement Learning 笔记

原文:https://www.cnblogs.com/yy1921rz/p/10963908.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!