论文原文地址:https://ieeexplore.ieee.org/document/8642452
译文地址:https://baijiahao.baidu.com/s?id=1631851140977931477&wfr=spider&for=pc
端到端的主动跟踪器由三个部分组成:
Observation Encoder、Sequence Encoder、Actor-Critic Network。
Observation Encoder相当于一个前端反馈网络,他包含卷积层、池化层、全连接层等。
Sequence Encoder不仅包含OE中的观测特征,还要有时序特征如速度、移动方向等,因为对于主动跟踪而言,出了要识别和定位object,还要有相应的时序特征。这一部分一般用循环神经网络实现?(原因?)
Actor-Critic Network把SE中的特征作为输入,分别输出近似的价值函数和动作策略。近似的价值函数即多个Reward之后的Value,在训练时用于计算演员的策略梯度(更新Theta),来更新网络。
动作空间离散时,输出各动作的概率;连续时,输出每一维度动作的平均值和标准差,并用高斯分布(正态分布)来表示动作分布。实验中,他们分别用全连接层来实现。
Reward Function
针对主动目标跟踪任务,我们在目标接近期望位置时给予奖励,远离时给予乘法。
环境增强技术:
为提高泛化能力,主要采用以下随机化方式:
1.跟踪器和目标的初始位置与朝向随机生成。
2.将输入图像进行左右镜像对称(对应的动作空间也将镜像对称)为什么要镜像?
3.随机隐藏一定数目的背景物体。
为更进一步提升模型的泛化能力以便直接迁移至真实场景,我们对关键要素进行了更进一步的随机化:
1.目标和背景的表面材质
2.光照条件
3.目标移动的速度和轨迹。
前两项的随机化为了提升OE的泛化能力,避免网络对特定场景和目标外观过拟合。第三点时为了提升SE的泛化能力,避免网络对特定的移动轨迹过拟合。
在真实场景中的主动目标跟踪:
1.连续动作空间下的表现能力:
二维动作空间(由线速度和角速度组成)。
真实场景实验设置:
每个50ms(20HZ)跟踪器的状态和动作会更新迭代一次。
End-to-end Active Object Tracking and Its Real-world Deployment via Reinforcement Learning 笔记
原文:https://www.cnblogs.com/yy1921rz/p/10963908.html