gensim中有关word2vec的一些使用

时间：2021-04-14 23:53:35 阅读：34 评论：0 收藏：0 [点我收藏+]

写在前面：下面的内容基于pytorch的版本为：1.7.1

1. 预训练嵌入向量的使用

import gensim
model = gensim.models.KeyedVectors.load_word2vec_format(‘./w2v_model.txt‘,binary=False, encoding=‘utf-8‘)  #加载预训练向量
print(model[‘the‘]         # 查看某个词的嵌入向量
vocab = model.index2word   # 返回的是所有的词组成的列表
# 获得词向量矩阵
embeddings = model.vectors
# 下面的代码是在模型定义中
# self.embedding = nn.Embedding(embeddings.shape[0],embeddings.shape[1])
# self.embedding.weight.data.copy_(torch.from_numpy(embeddings))
# self.embedding.weight.requires_grad = False

如果要使用glove预训练向量的话，需要做一下小小的改变，glove和Word2vec预训练的格式有一点区别，区别就在于word2vec格式的第一行写了全部的词数和向量的维度，在glove第一行加上就可以了。

2. Word2Vec模型使用保存与加载

使用方式如下所示：

from gensim.models import Word2Vec

seq = [[‘cat‘,‘say‘,‘meow‘],[‘dog‘,‘say‘,‘woof‘]]
model = Word2Vec(seq,size=50,min_count=1)  #定义模型，执行这一句就开始训练了
model.save(‘./model.model‘)                # 保存整个模型
model.wv.save_word2vec_format(‘./model2.txt‘)   # 保存训练出来的向量
print(model.wv[‘cat‘])

gensim中有关word2vec的一些使用

原文：https://www.cnblogs.com/noob-l/p/14659723.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)