第四篇：Named Entity Recognition with Bidirectional LSTM-CNNs

时间：2020-04-11 18:49:13 阅读：102 评论：0 收藏：0 [点我收藏+]

一、论文主要内容

　　collobert 的那个联合训练，虽然提出了神经网络，但仅仅是一个简单的前向反馈网络，抛弃了上下文长距离的依赖，仅仅依赖与窗口大小之内的单词依赖，其次，由于仅仅依赖于单词嵌入，它无法利用明确的字符级别特征，如前缀和后缀，这可能很有用，特别是在单词嵌入的罕见单词中。

　　一个新模型：bi-sltm-CNNs；

a bi-directional LSTM model can take into account an effectively infifinite amount of context on both sides of a word and eliminates the problem of limited context that applies to any feed-forward model，但是缺乏计算能力

字符级的双向LSTM并不比字符级CNN好很多，而且，LSTM计算成本昂贵

于是我们结合两者的优点，建立一个模型，去执行NER任务，可以学习字符级和字级特征。

双向LSTM中输出层的解码

（1）序列标签和双向LSTM：将提取的每个词的特征反馈给前向和后向LSTM网络中，输出层铜线一个线性层和一个log-softmax层将每个时间步长解码为每个标签的对数概率，再将两个向量简单的相加产生最后的输出向量。

（2）使用CNN提取字符特征：每个词都要经过一个卷积以及一个最大层，从字符嵌入以及附加的特征（比如字符类型）中提取一个新的特征向量。且再字符的两边填充了特殊的padding字符。CNN的窗口大小和输出层向量大小都是超参数。

　　一个新方法：一种新的神经网络部分词汇匹配编码方法，并将其与现有方法进行了比较

二、模型相关工作----word embedding、character embedding、additional character-level features

附加的字符级特征：大写、小写、标点符号以及其他，词典（词汇特征）

目标函数：

技术分享图片

句子级别对数似然，用softmax：

技术分享图片

通过梯度下降以及动态规划算法优化，在推理时，给定神经网络输出[fθ]i，t我们使用Viterbi算法找到标记序列[i]T1，使分数S([x]T1，[i]T1，θ0)最大化。

三、个人想法

　　1、就前四篇论文来说，最先是传统的神经网络模型与Log-bilinear CRF；其次就是将NER任务优化的模型是一个前向反馈模型加CRF的联合训练模型；再之后就是词嵌入加CRF模型；最后就是这篇双向LSTM加CNN模型，这也是当前最基础的NER任务模型，代码可深入了解；

　　2、本文，主要是基于句子级别的对数似然进行计算优化，以及添加了附加的特征，当我们使用现在的词向量训练词嵌入时，再加上一些特征工程，应该会比以前的效果好很多，不过此文主要是针对外文，中文的双向LSTM和CRF模型，要另阅读文章。

　　3、中文的NER任务，主要还是再分词上，词的边界清楚，切分词很正确，加上标注的一些标签，NER任务的完成度会很高的

　　4、中文中存在很多简写、缩写，这些更需要一个好多模型去学习，但是这些模型学习对了，又会出现过拟合，这是个很难的问题，而且简写的时候还会出现歧义，这是正在研究的一个问题----实体消歧。

　　5、如果实体消歧也加入人工特征词典，应该也能准确判断，此时重要的有两个点，一个是，人工特征词典是一个泛化的，另一个是，如何将这些加入再实体识别中。

　　6、基于前几篇文章，实体消歧，最主要的还是先大部分完成准确识别，之后再通过人工特征加入，这样可以进行实体消歧。

第四篇：Named Entity Recognition with Bidirectional LSTM-CNNs

原文：https://www.cnblogs.com/xujia-go/p/12674671.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)