词向量

时间：2021-04-14 15:25:24 阅读：27 评论：0 收藏：0 [点我收藏+]

***one-hot ***
Bag of Words(词袋模型)
- 没有表达单词在原来句子中出现的次序
TF-IDF
- 为了表示出一个单词在整个文档中的重要性，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降
- TF-IDF的计算公式如下：tfidf = tf*idf.
  - tf为词频，即一个词语在文档中的出现频率，假设一个词语在整个文档中出现了i次，而整个文档有N个词语，则tf的值为i/N.
  - idf为逆向文件频率，假设整个文档有n篇文章，而一个词语在k篇文章中出现，则idf值为idf=log2(n/k).
Bi-gram和N-gram

? - CBOW是利用词的上下文预测当前的单词，cbow对较小的数据集是有用的。CBOW速度更快

? - Skip-Gram则是利用当前词来预测上下文，skim-gram速度更慢，但是对于不常用，不常见的单词，skim-gram它的效果更好。

? - 可计算词向量加减例如：[‘woman‘, ‘king‘] + [‘man‘] = queen

? - 可计算指定词语最相似的词语

? -计算词语的相似度

Glove

是一种比较早的count-based的词向量表征工具，它也是基于co-occurance matrix的，只不过采用了基于奇异值分解（SVD）的矩阵分解技术对大矩阵进行降维，而我们知道SVD的复杂度是很高的，所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。而这些缺点在GloVe中被一一克服了。而word2vec最大的缺点则是没有充分利用所有的语料，所以GloVe其实是把两者的优点结合了起来。

原文：https://www.cnblogs.com/yangzilaing/p/14656255.html

踩

(0)

评论一句话评论（0）

分享档案

更多>