Word2vec 浅谈

时间：2014-11-13 16:45:46 阅读：446 评论：0 收藏：0 [点我收藏+]

本人还没有做过自然语言处理，但是基于Deep Learning 的关注，自然也了解了一些Word2vec的强大。

Word2vec 是google 在2013年提供的一款将词表征为实数值向量的高效工具。而Word2vec输出的词向量可用于做NLP 相关的工作，比如聚类、找同义词、词性分析等。Word2vec 大受欢迎的一个原因是其高效性， Tomas Mikolov 在[1] 中指出一个优化的单机版本一天可以训练上千亿词（汗！）。

关于词的概念，这里的词可以并不一定真的就是单词，完全可以是具有一定意义的单元块，比如国外音乐网站就用word2vec来训练用户的听歌记录，这里的单元块就是歌曲编号，如果用户对音乐类型的喜好是一致的，那么训练后就能找到与某个歌曲相似的歌曲，这样就能给用户进行推荐了，相信类似这样的例子还有很多。（关于这点思考：词可以使一个标号或者理解为一个类的对象！）

先上图：

bubuko.com,布布扣