首页 > 其他 > 详细

全网独发gensim中similarities.Similarity用法

时间:2019-08-11 23:56:08      阅读:347      评论:0      收藏:0      [点我收藏+]

index = similarities.MatrixSimilarity(lsi[corpus]) #

管网的原文翻译如下:

警告:similarities.MatrixSimilarity类仅仅适合能将所有的向量都在内存中的情况。例如,如果一个百万文档级的语料库使用该类,可能需要2G内存与256维LSI空间。 
如果没有足够的内存,你可以使用similarities.Similarity类。该类的操作只需要固定大小的内存,因为他将索引切分为多个文件(称为碎片)存储到硬盘上了。它实际上使用了similarities.MatrixSimilaritysimilarities.SparseMatrixSimilarity两个类,因此它也是比较快的,虽然看起来更加复杂了。

 

现在我就是大语料库,MatrixSimilarity这个类运行,就报错  Memory Error

可是关于similarities.Similarity 用法 在哪里呢??在哪里呢??在哪里呢??在哪里呢??

搜尽全网都没有答案,最可恶的是管网也不提这个用法。你不写参数,我知道咋用啊。

感恩,感恩

https://stackoverflow.com/questions/36578341/how-to-use-similarities-similarity-in-gensim

一位小哥写了这样的答案

技术分享图片

 

 可是可是 三个参数什么意思呢?

猜了半天,终于明白了。

中文解释一下:

第一个参数  就是‘E:\\cm_test’ ,是一个地址,这个地址,我猜是用来存放缓存文件的。

第二个参数 是tfidf向量化的语料库

第三个参数 是你的语料库文本的数量,我的数量是42万多行,如实写上

终于运行通过,技术分享图片

 

全网独发gensim中similarities.Similarity用法

原文:https://www.cnblogs.com/duoba/p/11337188.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!