????今天主要阅读了一篇论文Temporal Segment Networks:Towards Good Practices for Deep Action Recognition(时间片段网络面向深度动作识别的良好实践),这篇ECCV2016的文章主要提出了TSN(temporal segment network)结构,被用来做视频的动作识别。TSN可以看做是双流(Two stream)系列的改进(双流网络——论文链接)。改论文主要解决了以下两个问题:
????这里 是一个片段序列。从其对应的片段中随机采样每个片段。是表示带有参数W的ConvNet的函数,该函数在短代码段Tk上运行并为所有类别产生类别分数。分段共识函数G组合了多个简短摘要的输出,以获得其中的类假设的共识。基于此共识,预测函数H预测整个视频的每个动作类别的概率。在这里,我们选择H的广泛使用的Softmax函数。结合标准的分类交叉熵损失,关于分段共识的最终损失函数形成为
原文:https://www.cnblogs.com/somedayLi/p/12261644.html