第一篇：Natural Language Processing (Almost) from Scratch

时间：2020-04-09 15:59:15 阅读：207 评论：0 收藏：0 [点我收藏+]

一、本文中心内容

　　神经网络语言模型和词嵌入的经典论文，核心目标是将训练好的word embedding去完成词性标注（POS）、分块（短语识别CHUNK）、命名实体识别（NER）和语义角色标注（SRL）等任务，并且，本网络的语言模型只用来预训练word embedding，然后将其作为具体任务（任务的共同目标是标注）网络第一层（将词的one-hot表示变为word embedding）的参数继续再具体任务中训练。

　　本文运用到了多任务训练的模型，即共享one-hot到word embedding的转化层的参数，在多项任务上进行训练。统一标注，便于后续介绍，一个具有L层的前向反馈神经网络

　　本文中的神经网络分为这几个部分：

　　首先是词向量的构建，将一个词表示为一个向量，即表示为连续空间中的一个点，而不是最原始的one-hot表示。（1）每一个词表示为一个向量存储在表中供查询，lookup table（LW），对于每个词向量为技术分享图片 $L T_{W} (w) =< W >_{w}^{1}$

$L T_{W} (w) =< W >_{w}^{1}$

　　1、第一层，（通过查表操作将这些单词索引中的每一个映射为特征向量）输入层Input window，对于一个输入序列，每一个词对应一个tag并且有一个超参数k，根据特征个数进行查表曹祖，将输入表示为一个矩阵，并且可以拼接为一个固定长度的向量。技术分享图片

　　2、线性层，也就是第三层，和标注神经网络类似，将输入特征向量进行线性变换技术分享图片

　　3、非线性变换层：进行hardtanh变换技术分享图片

　　4、线性输出层：根据目标函数进行损失函数选择，一般选择softmax

其他考虑，对于一个长度为T的序列，将会产生T个输入，每一个词组成一个输入。并且窗口k是一个超参数可以采用CV进行选择。另外对于窗口小于k的词，可以添加PADDING词进行代替。该方法能够解决大部分的序列标注问题，但是对于SRL问题，常常需要指定某个谓词作为输入，此时该方法不能适用，需要考虑句子全部特征。

　　基于句子方法------相比于基于窗口的方法，加入卷积层照顾到全局特征