https://arxiv.org/abs/2005.02049
Chulun Zhou + 厦大苏劲松组 + 百度
无监督文本风格转换 ACL2020
文本样式转换是一项任务,它可以在保留其与样式无关的内容的同时更改输入句子的样式。 由于其广泛的应用,例如情感传递(Hu et al。,2017; Shen等人(2017)和文本形式化(Jain等人,2019),近年来它已成为自然语言生成研究的热点。 但是,由于缺乏平行训练数据,研究人员主要集中在无监督的样式转换上。
在这方面,许多方法(Hu等人,2017; Shen等人,2017; Fu等人,2018)诉诸于自动编码框架,其中使用编码器解开内容和样式,然后由解码器生成 具有目标样式的输出句子。
另一研究领域(Xu et al。,2018; Li et al。,2018)专注于删除输入句子的样式标记,以获得与样式无关的句子表示形式。 生成输出语句时,这两个直接将目标样式作为整体馈送到解码器中。
从另一个角度来看,一些研究人员将样式转换视为翻译过程,并使无监督的机器翻译适应此任务(Logeswaran等,2018; Zhang等,2018; Lample等,2019),其中样式切换是 隐式实现的。
此外,许多最近的模型进一步以不同的方式探索了这一任务,例如基于梯度的优化方法(Liu等人,2019),双重强化学习(Luo等人,2019),分层强化学习(Wu等人, 2019)和基于transformer的模型(Dai等人,2019)。
总体而言,在这些模型中,输出语句的质量主要取决于输入语句的内容表示形式和目标样式的利用。但是,上述模型的一个主要缺点是它们缺乏对目标样式对生成过程的影响的精细控制,从而限制了样式转移进一步改进的潜力。
直觉上,出现不同风格的句子的单词的频率是不同的,因此它们在不同程度上与各种风格相关。有鉴于此,我们认为,在理想的样式转换过程中,应根据不同的用词来区分目标样式的影响:如果我们为当前的样式转换模型配备神经网络组件,该组件可以自动量化单词级别的输出句子的样式相关性,则有望进一步提高模型的性能。
在本文中,我们提出了一种新颖的注意序列到序列模型(Seq2seq),该模型可以动态预测和利用每个输出词与目标样式的相关性,以进行无监督的样式转换。 具体来说,我们首先对样式分类器进行预训练,其中每个输入词与原始样式的相关性可以通过分层相关性传播(LRP)进行量化(Bach等人,2015)。 之后,我们以降噪自动编码的方式训练基本的注意力Seq2seq模型,以重建输入句子并同时重新预测其词级先前量化的样式相关性。 这样,该模型具有自动预测每个输出单词的样式相关性的能力。 然后,我们为该模型的解码器配备神经样式组件,以利用预测的词级样式相关性来实现更好的样式转换。 特别是,我们使用精心设计的损失函数(包括样式转移,样式相关一致性,内容保留和流利性)微调此模型。
与以前的方法相比,我们提出的模型避免了复杂的解缠过程,而该过程无法保证质量。而且,我们的模型能够解决由于不令人满意的解缠或显式删除样式标记而导致的源端信息丢失的问题。 更重要的是,我们的模型能够对目标样式对不同输出词的影响进行细粒度控制,从而更好地进行样式转换。 综上所述,我们的贡献可以总结如下:
Exploring Contextual Word-level Style Relevance for Unsupervised Style Transfer
原文:https://www.cnblogs.com/doragd/p/12861786.html