中文维基百科数据下载:
zhwiki-latest-pages-articles.xml.bz2
enwiki-latest-pages-articles.xml.bz2
sudo apt-get install python3-pip
pip3 install setuptools
git clone https://github.com/attardi/wikiextractor.git
cd wikiextractor/
sudo python setup.py install
python3 wikiextractor/WikiExtractor.py -b 1000M -o result.txt zhwiki-latest-pages-articles.xml
这里我们使用HanLP进行的分词
注意:需要将繁体中文转换成简体中文, 然后进行分词
注意:需要下载并编译好环境
./word2vec -train tt.txt -output vectors.bin -cbow 1 -size 80 -window 5 -negative 80 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
训练完成后,执行命令:
./distance vectors.bin
原文:https://www.cnblogs.com/duchaoqun/p/12735707.html