Siamese系列的核心
将整张图片和目标框 用相同的网络进行提取特征,然后再将目标框的特征作为卷积核和整个图片求卷积。
最后生成的是一层的Feature Map,将置信度最高的地方这个区域看作是目标。
如果有5个人,并不是将上述执行5次
整张图片执行一次,5个目标框分别执行一次,5个目标框的特征图作为卷积和整张图的卷积进行卷积操作,
生成5层的feature map。
为什么成Siamese系列为短时跟踪呢?
由上述解释可以看出来Siamese是可以做多目标跟踪的,所以不能以单目标多目标来区分
由于Siamese提取特征单调,许多先验知识没有考虑到,对Re-ID也没有考虑,所以只能用于短时跟踪。
Siamese-FC
整体框架
目标z执行φ 卷积操作,得到6*6*128的特征图φ(z)
图片x执行相同的Φ卷积操作,得到22*22*128的特征图φ(x)
然后执行g(φ(x),φ(z)) (这里可以是欧式距离,但是一般这里都是卷积操作,卷积核是φ(z))得到一个置信度图
损失函数的一些细节
l:一个点的损失
y:真实的label,{-1, 1}
v:最后的置信度图中一个点
D:最后特征图上所有的点
R:表示,只要在正确的一个半径内,都算预测正确
最后17*17的置信度图中置信度最高的一点,映射到x的一个区域,这个区域就是跟踪的目标
原文:https://www.cnblogs.com/yunshangyue71/p/13533379.html