首页 > 其他 > 详细

【词向量】chiVe: Japanese Word Embedding with Sudachi & NWJC

时间:2021-05-21 22:33:29      阅读:26      评论:0      收藏:0      [点我收藏+]

发现了现成的日文词向量:https://github.com/WorksApplications/chiVe

Abstract

“chiVe”(Sudachi Vector)是一种基于大规模语料库和多粒度标记的日语预训练词嵌入资源。

Based on the skip-gram algorithm, we used word2vec (gensim) to train the vectors.

我们使用日本语言和语言学国家研究所的NINJAL Web日语语料库(NWJC)作为训练语料库,使用Works Applications的Sudachi进行标记化。该语料库包含约1亿网页文本。

We used Sudachi‘s multi-granular tokenziation results (short, mid, and named entity) of NWJC text to train word vectors.我们使用Sudachi的NWJC文本的多粒度标记化结果(短、中、命名实体)来训练单词向量。

We provide data in 3 formats, namely, Text, gensim, and Magitude.

 

NLP神器--gensim:https://www.jianshu.com/p/9ac0075cc4c0

 

【词向量】chiVe: Japanese Word Embedding with Sudachi & NWJC

原文:https://www.cnblogs.com/Harukaze/p/14797058.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!