Generating Fluent Adversarial Examples for Natural Languages ACL 2019
为自然语言生成流畅的对抗样本
有效地构建自然语言处理(NLP)任务的对抗性攻击者是一个真正的挑战。首先,由于句子空间是离散的。沿梯度方向做小扰动是困难的。其次,生成的示例的流畅性不能保证。在本文中,我们提出了MHA,它通过执行Metropolis-Hastings抽样来解决这两个问题,其建议是在梯度的指导下设计的。在IMDB和SNLI上的实验表明,我们提出的MHA在攻击能力上优于基线模型。使用MHA进行Adver sarial训练也会带来更好的健壮性和性能。
对抗性学习是深度学习中的一个热门话题。攻击者通过扰动样本生成对抗性样本,并利用这些例子欺骗深度神经网络(DNNs)。从防御的角度出发,将对抗性样本混合到训练集中,提高了受害者模型的性能和鲁棒性。然而,为NLP 模型(例如文本分类器)构建攻击者是非常困难的。首先,由于句子空间离散,基于梯度的微扰难以实现。然而,梯度信息是至关重要的,它导致最陡的方向,以更有效的例子。其次,对抗性的例子通常不是流利的句子。不流畅的例子在攻击中效果较差,因为受害者模型可以很容易地学会识别它们。同时,对它们进行对抗性训练通常效果不佳(详细分析见图1)。目前的方法不能很好地处理这两个问题。
易卜拉欣等(2018)(HotFlip)提出通过翻转一个字符来扰乱一个句子,并使用每个字符的梯度来指导样本的选择。但是简单的字符转换常常导致无意义的单词(例如。"mood”到“mooP”)。遗传攻击(Alzantot•et al., 2018)是一个基于种群的词替代攻击者,其目的是通过语言模型过滤掉不合理的句子,生成流畅的句子。但遗传攻击证明的样本生成的流畅性仍不理想,当梯度被丢弃时,它的效率较低。
针对上述问题,本文提出了基于MHA算法的算法。MHA是基于Metropolis- hastings (M-H)采样的对抗样本生成(Metropolis et al., 1953; HASTINGS, 1970; Chib and Greenberg, 1995).。M H采样是一种经典的MCMC采样方法,在许多NLP任务中得到了应用。
论文阅读 | Generating Fluent Adversarial Examples for Natural Languages
原文:https://www.cnblogs.com/shona/p/11354327.html