LPF: A Language-Prior Feedback Objective Function forDe-biased Visual Question Answering

时间：2021-06-17 21:31:05 阅读：32 评论：0 收藏：0 [点我收藏+]

LPF: A Language-Prior Feedback Objective Function forDe-biased Visual Question Answering

作者创新点及其贡献

创新点

作者通过纯问题分支网络或得语言偏见，根据语言的偏见在主网络中为每个训练样本分配动态权重，实现消除语言偏见的效果

贡献

作者所提出的语言先验反馈目标函数（LPF），当从不平衡的VQA数据集中学习时，该函数能自动将训练损失调整为一个平衡形式，并提出一个通用框架，利用纯问题分支计算不同答案的动态权重。
在VQA-CP v2数据集中强于基线网络，并能与当前最新的网络进行竞争。

模型

通常VQA模型的损失函数

$$
L_{QO}=-\frac{1}{N}∑_{i=1}^{N}log?(softmax(f_{VQA}(v_i,q_i)))[a_i]
$$

纯问题模型

作者将经过LSTM或GRU等的问题编码器生成的问题嵌入经过由MLP层组成的网络得到文本偏见。

损失函数如下：
$$
L_{QO}=-\frac{1}{N}∑_{i=1}^{N}log?(softmax(f_{QO}(q_i)))[a_i]
$$

重塑VQA目标函数减少语言偏见

根据人工标记真实的答案和纯问题模型的softmax层输出计算$$ a_i $$
$$
a_i=softmax(f_{QO}(q_i))[a_i]=\frac{exp(f_{QO}(q_i))[a_i]}{∑_{j=1}^{|A|}exp(f_{QO}(q_i))[a_j]}
$$
通过$$ a_i $$计算出形式化调制因子$$ \beta_i$$，其中$$ \gamma$$为超参数:
$$
\beta_i=(1-a_i)^\gamma,\gamma\geq0
$$
最后通过调制因子$$ \beta_i$$控制损失函数的权重：
$$
L_{LPF}=-\frac{1}{N}∑_{i=1}^{N}\beta_ilog(softmax(f_{VQA}(v_i,q_i)))[a_i]
$$
如下图所示，如果仅通过纯问题模型进行计算出来的答案，其$$ a_i$$比较大，因此其$$ \beta_i$$较小，使得其减小$$ L_{LPF}$$的权重。
技术分享图片