生成目标句子单词的过程成了下面的形式:
每个Ci可能对应着不同的源语句子单词的注意力分配概率分布
没有引入注意力机制的Encoder-Decoder的模型如下:
AM-Attention model
原文:http://blog.51cto.com/9283734/2061554