End-to-end Active Object Tracking and Its Real-world Deployment via Reinforcement Learning 笔记

时间：2019-06-02 19:06:17 阅读：95 评论：0 收藏：0 [点我收藏+]

论文原文地址：https://ieeexplore.ieee.org/document/8642452

译文地址：https://baijiahao.baidu.com/s?id=1631851140977931477&wfr=spider&for=pc

端到端的主动跟踪器由三个部分组成：
Observation Encoder、Sequence Encoder、Actor-Critic Network。
Observation Encoder相当于一个前端反馈网络，他包含卷积层、池化层、全连接层等。
Sequence Encoder不仅包含OE中的观测特征，还要有时序特征如速度、移动方向等，因为对于主动跟踪而言，出了要识别和定位object，还要有相应的时序特征。这一部分一般用循环神经网络实现？（原因？）
Actor-Critic Network把SE中的特征作为输入，分别输出近似的价值函数和动作策略。近似的价值函数即多个Reward之后的Value，在训练时用于计算演员的策略梯度（更新Theta），来更新网络。
动作空间离散时，输出各动作的概率；连续时，输出每一维度动作的平均值和标准差，并用高斯分布（正态分布）来表示动作分布。实验中，他们分别用全连接层来实现。
Reward Function
针对主动目标跟踪任务，我们在目标接近期望位置时给予奖励，远离时给予乘法。
环境增强技术：
为提高泛化能力，主要采用以下随机化方式：
1.跟踪器和目标的初始位置与朝向随机生成。
2.将输入图像进行左右镜像对称（对应的动作空间也将镜像对称）为什么要镜像？
3.随机隐藏一定数目的背景物体。
为更进一步提升模型的泛化能力以便直接迁移至真实场景，我们对关键要素进行了更进一步的随机化：
1.目标和背景的表面材质
2.光照条件
3.目标移动的速度和轨迹。
前两项的随机化为了提升OE的泛化能力，避免网络对特定场景和目标外观过拟合。第三点时为了提升SE的泛化能力，避免网络对特定的移动轨迹过拟合。
在真实场景中的主动目标跟踪：
1.连续动作空间下的表现能力：
二维动作空间（由线速度和角速度组成）。
真实场景实验设置：
每个50ms（20HZ）跟踪器的状态和动作会更新迭代一次。

原文：https://www.cnblogs.com/yy1921rz/p/10963908.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)