首页 > 其他 > 详细

word embedding

时间:2020-03-13 17:41:21      阅读:64      评论:0      收藏:0      [点我收藏+]

word embedding

word vector

词向量,word embedding中的word是一个向量形式,才是计算机识别的形式

把word 用向量来表示,比如one-hot encoding形式,只有该词对应的位置是1

one-hot encoding

它也是一个词袋模型,不考虑词之间的顺序,假设词之间相互独立,得到一个离散的稀疏矩阵

但是文中词之间是有顺序的,词之间也不是相互独立的
这里讲一下独热编码的作用和缺点

  • 作用是能将样本特征转化为计算机识别的形式,也就是能够处理离散特征
  • 缺点是比如全世界地名这个特征,如果用one-hot处理,那处理完了之后,每个地名对应的位置是1,那最后得到的稀疏矩阵就会非常的大,此时维度爆炸了。。

于是大神们想出了了一个办法,来把维度缩小

Dristributed representation可以解决One hot representation的问题,它的思路是通过训练,将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间,进而可以用普通的统计学的方法来研究词与词之间的关系。这个较短的词向量维度是多大呢?这个一般需要我们在训练时自己来指定。jianshu

在映射过程中需要哦满足以下条件

  • 这个映射是单设(不懂的概念自行搜索);
  • 映射之后的向量不会丢失之前的那种向量所含的信息。

这个我还不懂
这个训练是什么?现在只是知道训练可以把词映射到比较短的词向量上,完事儿词向量的维度自己指定的时候有什么标准嘛?

word embedding

ok word embedding的概念就是将高维的词向量变成一个低维的词向量(空间)==降维
说了这么多就是降维??

word embedding

原文:https://www.cnblogs.com/gaowenxingxing/p/12485100.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!