word2Vector整理

时间：2018-09-26 15:49:25 阅读：192 评论：0 收藏：0 [点我收藏+]

Word2vector是一群用来生成词向量的模型的集合，Google在2013年开放了Word2vec这一款用于训练词向量的软件工具。

这里先了解词的两种表示形式：转载自http://www.dataguru.cn/article-13488-1.html

1 one-hot representation

　　这种方法把每个词表示成一个很长的向量，向量的维度是词表大小，采用的是稀疏方式存储，向量中绝大部分元素是0，只有一个维度是1，eg：可爱 [0 0 1 0]

　　缺点：① 向量的维度会随着句子的词的数量类型增大而增大

　　　　　② 任意两个词之间在表示上都是孤立的，无法表示语义层面上词汇的相关信息。

2 distributed representation

　　这里面有一个说法：上下文相似的词，其语义也相似。神经网络语言模型采用的就是文本分布式表示。词向量（word embedding）是训练该语言模型的一个附加产物。

词向量的本质是训练神经网络时候的隐藏层参数或者说矩阵

原文：https://www.cnblogs.com/Revelation/p/9707076.html

踩

(0)

评论一句话评论（0）

分享档案

更多>