词向量,word embedding中的word是一个向量形式,才是计算机识别的形式
把word 用向量来表示,比如one-hot encoding形式,只有该词对应的位置是1
它也是一个词袋模型,不考虑词之间的顺序,假设词之间相互独立,得到一个离散的稀疏矩阵
但是文中词之间是有顺序的,词之间也不是相互独立的,
这里讲一下独热编码的作用和缺点
于是大神们想出了了一个办法,来把维度缩小
Dristributed representation可以解决One hot representation的问题,它的思路是通过训练,将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间,进而可以用普通的统计学的方法来研究词与词之间的关系。这个较短的词向量维度是多大呢?这个一般需要我们在训练时自己来指定。jianshu
在映射过程中需要哦满足以下条件
这个我还不懂
这个训练是什么?现在只是知道训练可以把词映射到比较短的词向量上,完事儿词向量的维度自己指定的时候有什么标准嘛?
ok word embedding的概念就是将高维的词向量变成一个低维的词向量(空间)==降维
说了这么多就是降维??
原文:https://www.cnblogs.com/gaowenxingxing/p/12485100.html